git-base-textvqa开源视觉语言模型 - 图像转文本描述，助力TextVQA任务！

首页

Git Base Textvqa

由 microsoft 开发

GIT是一个基于Transformer的视觉语言模型，能够将图像转换为文本描述，特别针对TextVQA任务进行了微调。

图像生成文本

Transformers

支持多种语言开源协议:MIT #图像文本生成 #TextVQA微调 #视觉问答

下载量 1,182

发布时间 : 12/6/2022

模型简介

该模型通过CLIP图像标记和文本标记进行条件化训练，能够执行图像字幕生成、视觉问答等任务。基础版本在1000万图像-文本对上训练，并针对TextVQA任务进行了微调。

模型特点

双向图像注意力

模型对图像块标记具有完全访问权限，使用双向注意力机制

因果文本生成

在预测下一个文本标记时，仅能访问先前的文本标记，使用因果注意力掩码

多任务适应性

可用于图像字幕生成、视觉问答和图像分类等多种任务

模型能力

图像字幕生成

视觉问答

图像分类

文本生成

使用案例

视觉问答

TextVQA

回答基于图像中文本内容的问题

针对TextVQA任务进行了专门微调

图像理解

图像字幕生成

为图像生成描述性文本

🚀 GIT (GenerativeImage2Text)，基础尺寸，在TextVQA上微调

GIT（GenerativeImage2Text的缩写）模型，基础尺寸版本，在TextVQA上进行了微调。该模型由Wang等人在论文GIT: A Generative Image-to-text Transformer for Vision and Language中提出，并首次在此仓库发布。

免责声明：发布GIT的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队撰写。

🚀 快速开始

GIT模型可用于视觉问答等多种视觉与语言相关任务。若你想使用该模型，可参考文档获取代码示例。

✨ 主要特性

多模态输入：GIT是一个基于Transformer的解码器，它以CLIP图像令牌和文本令牌为条件进行训练。
广泛的任务适用性：可用于图像和视频字幕生成、图像和视频的视觉问答（VQA），甚至图像分类。
灵活的注意力机制：在预测下一个文本令牌时，模型可以完全访问图像补丁令牌（使用双向注意力掩码），但仅能访问之前的文本令牌（使用因果注意力掩码）。

GIT架构

📚 详细文档

模型描述

GIT是一个Transformer解码器，它以CLIP图像令牌和文本令牌为条件。该模型在大量的（图像，文本）对上使用“教师强制”进行训练。模型的目标很简单，即在给定图像令牌和先前文本令牌的情况下，预测下一个文本令牌。在预测下一个文本令牌时，模型可以完全访问图像补丁令牌（即使用双向注意力掩码），但仅能访问先前的文本令牌（即对文本令牌使用因果注意力掩码）。

预期用途和限制

你可以使用原始模型进行视觉问答（VQA）。请查看模型中心，以查找针对你感兴趣的任务进行微调的版本。

如何使用

有关代码示例，请参考文档。

训练数据

根据论文：

我们收集了8亿个图像 - 文本对用于预训练，其中包括COCO（Lin等人，2014）、Conceptual Captions (CC3M)（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome (VG)（Krishna等人，2016）、Conceptual Captions (CC12M)（Changpinyo等人，2021）、ALT200M（Hu等人，2021a），以及按照Hu等人（2021a）的类似收集程序收集的额外6亿个数据。

然而，这是论文中称为“GIT”的模型的训练数据，该模型并未开源。此检查点是“GIT - base”，它是GIT的一个较小变体，在1000万个图像 - 文本对上进行训练。接下来，该模型在TextVQA上进行了微调。更多详细信息请参阅论文GIT: A Generative Image-to-text Transformer for Vision and Language中的表11。

预处理

关于训练期间预处理的详细信息，请参考原始仓库。在验证期间，首先将每个图像的较短边调整大小，然后进行中心裁剪以达到固定大小的分辨率。接下来，使用ImageNet的均值和标准差对RGB通道上的帧进行归一化。

评估结果

有关评估结果，请参考论文GIT: A Generative Image-to-text Transformer for Vision and Language。

📄 许可证

本模型采用MIT许可证。

属性	详情
模型类型	GIT（GenerativeImage2Text）基础尺寸版本，在TextVQA上微调
训练数据	该检查点“GIT - base”在1000万个图像 - 文本对上训练，之后在TextVQA上微调。原论文模型使用8亿个图像 - 文本对预训练，包括COCO、Conceptual Captions等数据集