vit2distilgpt2开源图像到文本生成模型 - 免费将图像转化为描述性文本

首页

Vit2distilgpt2

由 sachin 开发

这是一个图像到文本生成模型，能够接收图像并输出描述性文本。

图像生成文本

Transformers

英语开源协议:MIT #图像转文本 #视觉编码解码 #COCO数据集训练

下载量 49

发布时间 : 3/2/2022

模型简介

该模型基于ViT和DistilGPT2架构，专门用于图像描述生成任务，在COCO2017数据集上训练。

模型特点

视觉-语言联合模型

结合视觉编码器和语言解码器实现图像到文本的转换

基于COCO数据集训练

在广泛使用的图像描述数据集上训练，具有较好的泛化能力

轻量级架构

使用DistilGPT2作为解码器，相比完整GPT2更轻量

模型能力

图像理解

文本生成

图像描述生成

使用案例

辅助技术

视觉辅助

为视障人士生成图像描述

内容生成

社交媒体内容自动生成

为上传的图片自动生成描述文字

🚀 Vit2-DistilGPT2

该模型接收一张图像并输出图像描述。它使用Coco数据集进行训练，完整的训练脚本可在此Kaggle内核中找到。

🚀 快速开始

该模型以图像作为输入，并输出对应的文字描述。它基于Coco数据集进行训练，完整的训练脚本可在此Kaggle内核中找到。

💻 使用示例

基础用法

import Image
from transformers import AutoModel, GPT2Tokenizer, ViTFeatureExtractor
model = AutoModel.from_pretrained("sachin/vit2distilgpt2")
vit_feature_extractor = ViTFeatureExtractor.from_pretrained("google/vit-base-patch16-224-in21k")
# make sure GPT2 appends EOS in begin and end
def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
    outputs = [self.bos_token_id] + token_ids_0 + [self.eos_token_id]
    return outputs
    
GPT2Tokenizer.build_inputs_with_special_tokens = build_inputs_with_special_tokens
gpt2_tokenizer = GPT2Tokenizer.from_pretrained("distilgpt2")
# set pad_token_id to unk_token_id -> be careful here as unk_token_id == eos_token_id == bos_token_id
gpt2_tokenizer.pad_token = gpt2_tokenizer.unk_token
image = (Image.open(image_path).convert("RGB"), return_tensors="pt").pixel_values
encoder_outputs = model.generate(image.unsqueeze(0))
generated_sentences = gpt2_tokenizer.batch_decode(encoder_outputs, skip_special_tokens=True)

⚠️ 重要提示

请注意，输出的句子可能会重复，因此可能需要进行后处理步骤。

📄 许可证

本项目采用MIT许可证。

🔧 技术细节

偏差警告

由于数据集、训练时间不足以及模型本身的原因，该模型可能存在偏差。以下性别偏差示例可作参考：