vit-base-patch16-224-distilgpt2开源图像描述模型 - 免费将图像转换为文本描述

Vit Base Patch16 224 Distilgpt2

由 tarekziade 开发

DistilViT 是一个基于视觉Transformer(ViT)和蒸馏版GPT-2的图像描述生成模型，能够将图像转换为文本描述。

下载量 17

发布时间 : 6/19/2024

模型简介

该模型结合了视觉Transformer的图像编码能力和蒸馏版GPT-2的文本生成能力，专门用于图像转文本任务，可以生成图像的描述性文字。

高效图像理解

采用VIT模型作为图像编码器，能够有效理解图像内容

轻量级文本生成

使用蒸馏版GPT-2作为文本解码器，在保持性能的同时减少模型大小

多数据集训练

在Flickr30k和COCO 2017等多个数据集上进行训练，提高泛化能力

图像内容理解

图像描述生成

视觉-语言转换

辅助技术

为视障人士生成图像描述

自动为图像生成文字描述，帮助视障人士理解图像内容

内容管理

自动图像标注

为大量图像自动生成描述性标签，便于搜索和管理

属性	详情
模型类型	distilvit
训练数据	Flickr30k、COCO 2017、Flickr30k debiased、DocOrNot、Alt Text Validation
评估指标	ROUGE - 1：43.006；ROUGE - 2：16.9939；ROUGE - L：38.8923；ROUGE - LSUM：38.8877；loss：0.19939416646957397；gen_len：11.327256736227712