swin-aragpt2-image-captioning-v3开源图像描述模型

Swin Aragpt2 Image Captioning V3

由 AsmaMassad 开发

基于Swin Transformer和AraGPT2架构的图像描述生成模型，能够为输入的图像生成文本描述。

下载量 18

发布时间 : 6/6/2023

模型简介

该模型是一个视觉-语言模型，结合了Swin Transformer的图像编码能力和AraGPT2的文本生成能力，专门用于图像描述生成任务。

多模态架构

结合视觉Transformer和语言模型，实现图像到文本的转换

端到端训练

整个模型进行端到端微调，优化图像理解和文本生成的联合能力

跨模态理解

能够理解图像内容并生成连贯的描述性文本

图像内容理解

阿拉伯语文本生成

图像到文本转换

辅助技术

视障辅助

为视障用户生成图像描述

内容生成

社交媒体内容自动生成

为上传的图片自动生成描述文字

训练损失	轮数	步数	验证损失	Meteor	Bleu1	Bleu2	Bleu3	Bleu4
1.5775	4.71	5000	1.2386	1.91	2.6908	1.0804	0.3964	0.1282
1.2446	9.42	10000	1.1985	5.09	8.4549	2.9556	1.2756	0.4817
1.1919	14.12	15000	1.1792	5.4	9.0722	2.9343	1.1887	0.4748
1.1669	18.83	20000	1.1743	5.02	8.5611	2.9273	1.1796	0.4618