BLIP-Large微调版开源模型 - 缓解描述幻觉精准实现图像字幕生成

首页

Blip Image Captioning Large Mocha

由 moranyanuka 开发

这是BLIP-Large模型的官方微调版本，采用MOCHa强化学习框架在MS-COCO数据集上进行微调，旨在缓解开放词汇描述幻觉问题

图像生成文本

Transformers

开源协议:MIT #抗幻觉图像描述 #开放词汇生成 #强化学习微调

下载量 188

发布时间 : 12/19/2023

模型简介

基于BLIP-Large架构的图像描述生成模型，支持条件式与非条件式图像描述生成

模型特点

MOCHa微调

采用MOCHa强化学习框架在MS-COCO数据集上进行微调

缓解描述幻觉

专门针对开放词汇描述幻觉问题进行优化

双模式生成

支持条件式与非条件式两种图像描述生成方式

模型能力

图像描述生成

条件式文本生成

视觉语言理解

使用案例

图像理解

自动图像标注

为图像生成准确的描述性文本

生成符合图像内容的自然语言描述

辅助视觉障碍人士

将视觉内容转换为文字描述

帮助视觉障碍者理解图像内容

内容创作

社交媒体内容生成

为上传的图片自动生成配文

提高内容创作效率

🚀 BLIP-Large模型的Mocha检查点

本项目是BLIP-Large模型的官方检查点，它在MS-COCO数据集上使用MOCHa强化学习框架进行了微调。相关研究成果发表于论文Mitigating Open-Vocabulary Caption Hallucinations。

项目主页

🚀 快速开始

你可以使用此模型进行有条件和无条件的图像字幕生成。

💻 使用示例

基础用法

使用PyTorch模型

在CPU上运行模型

点击展开

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("moranyanuka/blip-image-captioning-large-mocha")
model = BlipForConditionalGeneration.from_pretrained("moranyanuka/blip-image-captioning-large-mocha")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

高级用法

在GPU上运行模型

全精度运行

点击展开

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("moranyanuka/blip-image-captioning-large-mocha")
model = BlipForConditionalGeneration.from_pretrained("moranyanuka/blip-image-captioning-large-mocha").to("cuda")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt").to("cuda")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt").to("cuda")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

半精度（`float16`）运行

点击展开

import torch
import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("moranyanuka/blip-image-captioning-large-mocha")
model = BlipForConditionalGeneration.from_pretrained("moranyanuka/blip-image-captioning-large-mocha", torch_dtype=torch.float16).to("cuda")

img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# conditional image captioning
text = "a photography of"
inputs = processor(raw_image, text, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))
# >>> a photography of a woman and a dog on the beach

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt").to("cuda", torch.float16)

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))
>>> there is a woman and a dog on the beach at sunset

📚 详细文档

BibTeX引用

@misc{benkish2024mitigating,
      title={Mitigating Open-Vocabulary Caption Hallucinations}, 
      author={Assaf Ben-Kish and Moran Yanuka and Morris Alper and Raja Giryes and Hadar Averbuch-Elor},
      year={2024},
      eprint={2312.03631},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}