V

Vit2distilgpt2

由 sachin 开发
这是一个图像到文本生成模型,能够接收图像并输出描述性文本。
下载量 49
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型基于ViT和DistilGPT2架构,专门用于图像描述生成任务,在COCO2017数据集上训练。

模型特点

视觉-语言联合模型
结合视觉编码器和语言解码器实现图像到文本的转换
基于COCO数据集训练
在广泛使用的图像描述数据集上训练,具有较好的泛化能力
轻量级架构
使用DistilGPT2作为解码器,相比完整GPT2更轻量

模型能力

图像理解
文本生成
图像描述生成

使用案例

辅助技术
视觉辅助
为视障人士生成图像描述
内容生成
社交媒体内容自动生成
为上传的图片自动生成描述文字