vlrm-blip2-opt-2.7b开源图像描述模型 - 生成长且全面的图像描述信息

首页

Vlrm Blip2 Opt 2.7b

由 sashakunitsyn 开发

通过强化学习方法微调的BLIP-2 OPT-2.7B模型，能够生成长且全面的图像描述

图像生成文本

Transformers

英语开源协议:MIT #强化学习微调 #长文本图像描述 #零样本生成

下载量 398

发布时间 : 4/2/2024

模型简介

该模型是基于BLIP-2 OPT-2.7B架构，通过强化学习方法微调的视觉语言模型，专注于图像描述生成任务，相比原始模型能生成更详细、更全面的描述。

模型特点

强化学习微调

通过强化学习方法优化，使模型能生成更长且更全面的图像描述

无需额外计算开销

相比原始模型，改进后的模型在保持相同计算资源需求的情况下提升性能

模块化加载

支持仅加载微调层权重，可灵活应用于原始模型

模型能力

图像描述生成

视觉语言理解

多模态处理

使用案例

图像理解

自动图像标注

为图像生成详细描述，可用于内容管理系统

相比原始模型生成更全面、更长的描述

辅助视觉障碍人士

为视觉障碍用户提供详细的图像描述

提供更丰富的场景信息

内容创作

社交媒体内容生成

为社交媒体图片自动生成吸引人的描述

生成更吸引人的长描述

🚀 VLRM

本仓库包含了通过论文 VLRM: Vision-Language Models act as Reward Models for Image Captioning 中介绍的强化学习方法微调的 BLIP - 2 OPT - 2.7B 模型的权重。与原始模型相比，经过强化学习微调的模型能够在零计算开销的情况下生成更长、更全面的描述。

你可以在 GitHub 仓库 (待完成) 中找到其他详细信息。

🚀 快速开始

💻 使用示例

基础用法

你可以从本仓库加载整个模型：

import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("sashakunitsyn/vlrm-blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("sashakunitsyn/vlrm-blip2-opt-2.7b", torch_dtype=torch.float16, device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

inputs = processor(raw_image, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs, max_new_tokens=60)
processor.decode(out[0], skip_special_tokens=True).strip()
>>> 'a woman in a plaid shirt shaking hands with a yellow labrador retriever sitting on the ground at sunset on a beach in florida'

高级用法

由于微调层在整个模型中所占比例较小，你可以先加载原始模型，然后加载经过强化学习微调的权重。

步骤 1. 加载原始模型

import torch
import requests
from PIL import Image
from transformers import Blip2Processor, Blip2ForConditionalGeneration

processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16, device_map="auto")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

inputs = processor(raw_image, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs, max_new_tokens=60)
processor.decode(out[0], skip_special_tokens=True).strip()
>>> 'a woman sitting on the beach with a dog'

步骤 2. 加载经过强化学习微调的权重

可用的检查点：

vlrm-blip2-opt-2.7b.pt (论文中的 VLRM)
vlrm-rs-blip2-opt-2.7b.pt (论文中的 VLRM - RS)

from huggingface_hub import hf_hub_download
finetuned_weights_state_dict = torch.load(hf_hub_download(repo_id="sashakunitsyn/vlrm-blip2-opt-2.7b", filename="vlrm-blip2-opt-2.7b.pt"))
model.load_state_dict(finetuned_weights_state_dict, strict=False)

out = model.generate(**inputs, max_new_tokens=60)
processor.decode(out[0], skip_special_tokens=True).strip()
>>> 'a woman in a plaid shirt shaking hands with a yellow labrador retriever sitting on the ground at sunset on a beach in florida'