Vitgpt2 Vizwiz

V

Vitgpt2 Vizwiz

由 gagan3012 开发

基于ViT-GPT2架构的视觉-语言模型，用于图像转文本任务

图像生成文本

#图像描述生成 #多模态模型 #视觉问答

下载量 24

发布时间 : 3/2/2022

模型简介

该模型结合视觉Transformer(ViT)和GPT-2架构，能够将图像内容转换为描述性文本，适用于视觉问答和图像描述生成任务

模型特点

多模态理解

能够同时处理视觉和语言信息，实现图像到文本的转换

端到端训练

采用联合训练方式优化视觉和语言组件

高效微调

在VizWiz数据集上微调，优化了视觉问答性能

模型能力

图像描述生成

视觉问答

多模态理解

使用案例

辅助技术

视觉辅助

为视障人士提供图像内容描述

内容生成

自动图像标注

为图像库生成自动描述标签

🚀 ViTGPT2_vizwiz

该模型是基于未知数据集对进行微调后的版本。它在评估集上取得了如下结果：

损失值：0.0719

🚀 快速开始

此部分暂未提供具体开始使用的内容，可依据模型的常规使用方法，结合后续提供的训练和评估信息进行操作。

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：2e - 05
训练批次大小：8
评估批次大小：8
随机种子：42
分布式类型：多GPU
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
训练轮数：3.0
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失
0.1207	0.07	1000	0.0906
0.0916	0.14	2000	0.0861
0.0879	0.2	3000	0.0840
0.0856	0.27	4000	0.0822
0.0834	0.34	5000	0.0806
0.0817	0.41	6000	0.0795
0.0812	0.48	7000	0.0785
0.0808	0.55	8000	0.0779
0.0796	0.61	9000	0.0771
0.0786	0.68	10000	0.0767
0.0774	0.75	11000	0.0762
0.0772	0.82	12000	0.0758
0.0756	0.89	13000	0.0754
0.0759	0.96	14000	0.0750
0.0756	1.02	15000	0.0748
0.0726	1.09	16000	0.0745
0.0727	1.16	17000	0.0745
0.0715	1.23	18000	0.0742
0.0726	1.3	19000	0.0741
0.072	1.37	20000	0.0738
0.0723	1.43	21000	0.0735
0.0715	1.5	22000	0.0734
0.0724	1.57	23000	0.0732
0.0723	1.64	24000	0.0730
0.0718	1.71	25000	0.0729
0.07	1.78	26000	0.0728
0.0702	1.84	27000	0.0726
0.0704	1.91	28000	0.0725
0.0703	1.98	29000	0.0725
0.0686	2.05	30000	0.0726
0.0687	2.12	31000	0.0726
0.0688	2.19	32000	0.0724
0.0677	2.25	33000	0.0724
0.0665	2.32	34000	0.0725
0.0684	2.39	35000	0.0723
0.0678	2.46	36000	0.0722
0.0686	2.53	37000	0.0722
0.067	2.59	38000	0.0721
0.0669	2.66	39000	0.0721
0.0673	2.73	40000	0.0721
0.0673	2.8	41000	0.0720
0.0662	2.87	42000	0.0720
0.0681	2.94	43000	0.0719

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2 + cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24