V

Vitgpt2 Vizwiz

由 gagan3012 开发
基于ViT-GPT2架构的视觉-语言模型,用于图像转文本任务
下载量 24
发布时间 : 3/2/2022

模型简介

该模型结合视觉Transformer(ViT)和GPT-2架构,能够将图像内容转换为描述性文本,适用于视觉问答和图像描述生成任务

模型特点

多模态理解
能够同时处理视觉和语言信息,实现图像到文本的转换
端到端训练
采用联合训练方式优化视觉和语言组件
高效微调
在VizWiz数据集上微调,优化了视觉问答性能

模型能力

图像描述生成
视觉问答
多模态理解

使用案例

辅助技术
视觉辅助
为视障人士提供图像内容描述
内容生成
自动图像标注
为图像库生成自动描述标签
AIbase
智启未来,您的人工智能解决方案智库
简体中文