V

Vit Swin Base 224 Gpt2 Image Captioning

由 Abdou 开发
基于VisionEncoderDecoder架构的图像描述生成模型,使用Swin Transformer作为视觉编码器和GPT-2作为解码器,在COCO2014数据集上微调
下载量 321
发布时间 : 2/5/2023
模型介绍
内容详情
替代品

模型简介

该模型用于自动生成图像的英文描述,结合了视觉编码和文本生成能力

模型特点

混合架构
结合Swin Transformer的视觉编码能力和GPT-2的文本生成能力
高效训练
在COCO数据集60%的数据上微调,训练时间仅5小时(A100 GPU)
多指标优化
同时优化ROUGE和BLEU等多种文本生成指标

模型能力

图像理解
英文描述生成
自然语言生成

使用案例

辅助技术
视障人士辅助
为视障用户自动生成图像描述
内容管理
自动图像标注
为图像库自动生成描述性标签