G

Git Base Textvqa

由 Hellraiser24 开发
基于microsoft/git-base-textvqa在textvqa数据集上微调的视觉问答模型,擅长处理包含文本的图像问答任务
下载量 19
发布时间 : 6/4/2023
模型介绍
内容详情
替代品

模型简介

该模型是GIT架构在TextVQA数据集上的微调版本,专门用于解决需要同时理解图像和其中文本内容的视觉问答任务

模型特点

文本图像联合理解
能够同时处理图像中的视觉信息和文本内容
端到端训练
采用统一的Transformer架构进行端到端训练
高效微调
在TextVQA数据集上表现出良好的微调效果

模型能力

图像中的文本识别
基于图像文本的问答
多模态理解
视觉-语言联合推理

使用案例

智能辅助
场景文字问答
回答关于图像中出现的文字内容的问题
在TextVQA评估集上损失值为0.0472
无障碍技术
图像文字描述
为视障人士描述图像中的文字内容