image-caption-generator开源视觉语言模型 - 免费为图像生成自然语言描述

首页

Image Caption Generator

由 bipin 开发

基于Flickr8k数据集训练的视觉语言模型，能够为输入图像生成自然语言描述

图像生成文本

Transformers

#图像转文本 #视觉语言模型 #Flickr8k训练

下载量 177

发布时间 : 3/27/2022

模型简介

该模型是一个图像到文本的转换模型，能够分析输入图像的内容并生成相应的文字描述。基于Transformer架构，结合了视觉编码器和文本解码器。

模型特点

基于Transformer架构

结合视觉编码器(ViT)和文本解码器(GPT2)，实现高效的图像到文本转换

端到端训练

整个模型采用端到端方式进行训练，简化了图像描述生成流程

束搜索生成

支持束搜索(beam search)生成策略，提高生成描述的质量

模型能力

图像内容理解

自然语言描述生成

视觉-语言转换

使用案例

辅助技术

视觉辅助

为视障人士提供图像内容的语音描述

内容管理

图像自动标注

为大量图像自动生成描述标签，便于搜索和管理

🚀 图像字幕生成器

本模型旨在解决为图像生成描述性字幕的问题，通过在特定数据集上进行训练，能够根据输入的图像输出准确且有意义的文字描述，为图像理解和信息传递提供了有效的解决方案。

🚀 快速开始

本模型在 Flickr8k 数据集上进行训练，可根据给定的图像生成字幕。它在评估集上取得了以下结果：

评估损失：0.2536
评估运行时间：25.369
每秒评估样本数：63.818
每秒评估步数：8.002
轮数：4.0
步数：3236

📦 安装指南

使用transformers库运行此模型，可按照以下步骤操作：

1. 从模型中心加载预训练模型

from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
import torch
from PIL import Image

model_name = "bipin/image-caption-generator"

# 加载模型
model = VisionEncoderDecoderModel.from_pretrained(model_name)
feature_extractor = ViTFeatureExtractor.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained("gpt2")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

2. 加载要生成字幕的图像（注意：将 `img_name` 的值替换为你选择的图像）

### 将值替换为你的图像
img_name = "flickr_data.jpg"
img = Image.open(img_name)
if img.mode != 'RGB':
    img = img.convert(mode="RGB")

3. 对图像进行预处理

pixel_values = feature_extractor(images=[img], return_tensors="pt").pixel_values
pixel_values = pixel_values.to(device)

4. 生成字幕

max_length = 128
num_beams = 4

# 获取模型预测结果
output_ids = model.generate(pixel_values, num_beams=num_beams, max_length=max_length)

# 解码生成的预测结果
preds = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(preds)

📚 详细文档

训练过程

训练此模型的具体过程可参考此处。

训练超参数

训练期间使用了以下超参数：

属性	详情
学习率	5e - 05
训练批次大小	8
评估批次大小	8
随机种子	42
优化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型	线性
训练轮数	5