FuseCap开源图像描述框架 - 免费用大模型生成语义丰富的图像描述

首页

Fusecap Image Captioning

由 noamrot 开发

FuseCap是一个专为生成语义丰富图像描述而设计的框架，利用大型语言模型生成融合图像描述。

图像生成文本

Transformers

开源协议:MIT #图像描述生成 #语义丰富描述 #LLM增强

下载量 2,771

发布时间 : 5/31/2023

模型简介

FuseCap是一个图像转文本模型，旨在生成语义丰富的图像描述。它通过融合大型语言模型的能力，提供更详细和准确的图像描述。

模型特点

语义丰富的图像描述

利用大型语言模型生成更详细和准确的图像描述。

融合描述

通过融合多种描述来源，生成更全面的图像描述。

基于BLIP架构

使用BLIP架构进行训练和推理，确保模型的高效性和准确性。

模型能力

图像描述生成

语义丰富的文本输出

多模态融合

使用案例

图像理解

自动图像标注

为图像生成详细的描述，用于自动标注和分类。

生成语义丰富的描述，提升标注质量。

辅助视觉障碍人士

为视觉障碍人士提供详细的图像描述，帮助他们理解图像内容。

提供更准确和详细的图像描述，提升用户体验。

🚀 FuseCap：利用大语言模型生成丰富的融合图像描述

FuseCap 是一个旨在生成语义丰富的图像描述的框架，能够为图像提供更精准、丰富的文本描述。

🚀 快速开始

我们基于 BLIP 的模型可以使用以下代码运行：

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration
import torch

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
processor = BlipProcessor.from_pretrained("noamrot/FuseCap")
model = BlipForConditionalGeneration.from_pretrained("noamrot/FuseCap").to(device)

img_url = 'https://huggingface.co/spaces/noamrot/FuseCap/resolve/main/bike.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

text = "a picture of "
inputs = processor(raw_image, text, return_tensors="pt").to(device)

out = model.generate(**inputs, num_beams = 3)
print(processor.decode(out[0], skip_special_tokens=True))

✨ 主要特性

FuseCap 框架专为生成语义丰富的图像描述而设计，能够借助大语言模型的能力，为图像生成更具深度和丰富度的描述信息。

📚 详细文档

资源链接

💻 项目页面：如需更多详情，请访问官方项目页面。
📝 阅读论文：你可以在这里找到相关论文。
🚀 演示体验：可以尝试我们基于 BLIP 并使用 FuseCap 训练的模型演示。
📂 代码仓库：FuseCap 的代码可以在 GitHub 仓库中找到。
🗃️ 数据集：融合描述数据集可以从这里获取。

即将更新内容

该项目的官方代码库、数据集和训练好的模型即将发布。

BibTeX 引用

@inproceedings{rotstein2024fusecap,
  title={Fusecap: Leveraging large language models for enriched fused image captions},
  author={Rotstein, Noam and Bensa{\"\i}d, David and Brody, Shaked and Ganz, Roy and Kimmel, Ron},
  booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision},
  pages={5689--5700},
  year={2024}
}