V

Vit Gpt2 Image Chinese Captioning

由 yuanzhoulvpi 开发
该模型使用ViT对图像进行编码,再通过GPT-2进行解码,支持中文图像描述生成。
下载量 22
发布时间 : 3/2/2023
模型介绍
内容详情
替代品

模型简介

结合视觉编码器(ViT)和语言解码器(GPT-2)的中文图像描述生成模型,能够为输入图像生成中文文本描述。

模型特点

中文支持
专门针对中文优化的图像描述生成能力
混合架构
结合视觉Transformer(ViT)和语言模型(GPT-2)的优势
预训练模型
基于google/vit-base-patch16-224和yuanzhoulvpi/gpt2_chinese的预训练模型

模型能力

图像理解
中文文本生成
图像到文本转换

使用案例

内容生成
自动图像标注
为社交媒体或电商平台的图片自动生成中文描述
示例图片生成描述如'一只猫坐在沙发上'
辅助视觉障碍人士
将视觉内容转换为文字描述