vilt-gqa-ft开源视觉语言模型 - 助力完成GQA视觉推理任务

Vilt Gqa Ft

由 phucd 开发

基于ViLT架构的视觉语言模型，专为GQA视觉推理任务微调

下载量 62

发布时间 : 4/18/2025

模型简介

该模型是基于ViLT(Vision-and-Language Transformer)架构的视觉语言模型，经过GQA(真实世界视觉推理数据集)的微调，擅长处理视觉推理任务。

视觉语言联合建模

采用ViLT架构，能同时处理视觉和语言输入，实现跨模态理解

GQA数据集微调

专门针对GQA视觉推理数据集进行优化，提升真实世界场景的推理能力

高效训练

使用梯度累积等技术优化训练效率，批次大小达到32

视觉问答

图像理解

跨模态推理

场景理解

智能助手

图像内容问答

回答关于图像内容的复杂问题

能理解图像场景并回答推理性问题

教育

视觉学习辅助

帮助学生理解复杂视觉场景

属性	详情
学习率	5e - 05
训练批次大小	16
评估批次大小	8
随机种子	42
梯度累积步数	2
总训练批次大小	32
优化器	使用 OptimizerNames.ADAMW_TORCH，β值为(0.9, 0.999)，ε值为 1e - 08，无额外优化器参数
学习率调度器类型	线性
训练轮数	20