ViT-GPT2-Image-Captioning开源模型 - 免费为图像生成自然语言描述

首页

Vit GPT2 Image Captioning

由 motheecreator 开发

基于ViT-GPT2架构的图像描述生成模型，能够为输入的图像生成自然语言描述。

图像生成文本

Transformers

#视觉-文本生成 #多模态模型 #图像描述生成

下载量 149

发布时间 : 9/30/2024

模型简介

该模型结合了视觉Transformer(ViT)和GPT-2语言模型，用于图像到文本的生成任务。它能够分析图像内容并生成相应的描述性文字。

模型特点

视觉-语言联合建模

结合视觉Transformer和语言模型，实现图像到文本的跨模态理解与生成

端到端训练

整个模型可以进行端到端的训练，优化图像理解和文本生成的联合任务

BLEU优化

模型在BLEU指标上表现良好，生成的描述与人类参考文本有较高相似度

模型能力

图像理解

自然语言生成

跨模态转换

使用案例

辅助技术

视觉辅助

为视障人士提供图像内容的文字描述

内容创作

社交媒体自动标注

自动为上传的图片生成描述性文字

数据标注

自动化图像标注

为大规模图像数据集生成初步的文字标注

训练损失	轮数	步数	验证损失	Rouge2精确率	Rouge2召回率	Rouge2 F值	蓝斯分数（Bleu）
2.1537	0.9993	1171	2.13666	无	无	0.1531	9.4673
2.0434	1.9985	2342	2.125337	无	无	0.155	9.7054

属性	详情
模型类型	图像描述生成模型
基础模型	motheecreator/ViT - GPT2 - Image_Captioning_model
标签	由训练器生成、图像到文本
评估指标	蓝斯分数（Bleu）

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Vit GPT2 Image Captioning

模型简介

模型特点

模型能力

使用案例

🚀 ViT - GPT2

🚀 快速开始

✨ 主要特性

🔧 技术细节

训练超参数

训练结果

框架版本

📄 许可证