V

Vit Gpt2 Coco En

由 ydshieh 开发
基于ViT和GPT2架构的图像转文本模型,能够为输入图像生成合理的英文描述
下载量 5,177
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个基于VisionEncoderDecoder框架的概念验证模型,使用ViT作为视觉编码器,GPT2作为文本解码器,在COCO数据集上微调,用于图像描述生成任务

模型特点

多框架支持
同时提供PyTorch和Flax(JAX)两种实现版本
端到端生成
直接从图像像素值生成自然语言描述,无需中间处理步骤
轻量级应用
作为概念验证模型,相对轻量且易于部署

模型能力

图像理解
自然语言生成
视觉-语言转换

使用案例

内容生成
图像自动标注
为图片库中的图像自动生成描述性文字
生成类似'一只猫躺在沙发上,旁边是另一只猫'的描述
无障碍辅助
为视障用户提供图像内容描述