开源git-large-vqav2模型 - 可免费部署用于视觉问答等实用任务

首页

Git Large Vqav2

由 microsoft 开发

GIT是一种基于CLIP图像标记和文本标记的Transformer解码器，通过大量图像-文本对训练，适用于视觉问答等任务。

图像生成文本

Transformers

支持多种语言开源协议:MIT #视觉问答 #生成式图像理解 #多模态Transformer

下载量 401

发布时间 : 1/2/2023

模型简介

GIT模型通过教师强制方式在图像和文本对上训练，能够预测下一个文本标记，适用于图像/视频字幕生成、视觉问答和图像分类等任务。

模型特点

多模态理解

能够同时处理图像和文本信息，实现跨模态理解。

生成式模型

采用生成式方法预测文本标记，而非传统的分类方法。

双向注意力机制

对图像标记使用双向注意力，对文本标记使用因果注意力。

模型能力

图像理解

视觉问答

图像字幕生成

视频字幕生成

图像分类（通过文本生成）

使用案例

视觉问答

图像内容问答

回答关于图像内容的自然语言问题

在VQAv2数据集上表现良好

内容生成

图像字幕生成

为图像生成描述性文字

视频字幕生成

为视频内容生成描述性文字

🚀 生成式图像转文本模型 (GIT) - 大尺寸版本，在VQAv2上微调

GIT（GenerativeImage2Text的缩写）是大尺寸版本的模型，在VQAv2数据集上进行了微调。该模型由Wang等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，并首次在此仓库发布。

免责声明：发布GIT的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

多模态处理：GIT是一个基于Transformer的解码器，它以CLIP图像标记和文本标记为条件进行训练，能够处理图像和文本的多模态信息。
广泛的应用场景：可用于图像和视频字幕生成、图像和视频的视觉问答（VQA），甚至图像分类任务。
灵活的预测机制：在预测下一个文本标记时，模型可以完全访问图像块标记（使用双向注意力掩码），但只能访问之前的文本标记（使用因果注意力掩码）。

📚 详细文档

模型描述

GIT是一个以CLIP图像标记和文本标记为条件的Transformer解码器。该模型在大量的（图像，文本）对上使用“教师强制”方法进行训练。

模型的目标很简单，即在给定图像标记和先前文本标记的情况下，预测下一个文本标记。

在预测下一个文本标记时，模型可以完全访问图像块标记（即使用双向注意力掩码），但只能访问先前的文本标记（即对文本标记使用因果注意力掩码）。

GIT架构

这使得该模型可用于以下任务：

图像和视频字幕生成
图像和视频的视觉问答（VQA）
甚至图像分类（只需以图像为条件，让模型以文本形式生成类别）

预期用途和限制

你可以使用原始模型进行视觉问答（VQA）。请查看模型中心以寻找针对你感兴趣的任务进行微调的版本。

如何使用

有关代码示例，请参考文档。

训练数据

根据论文所述：

我们收集了8亿个图像 - 文本对用于预训练，其中包括COCO（Lin等人，2014）、Conceptual Captions (CC3M)（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome (VG)（Krishna等人，2016）、Conceptual Captions (CC12M)（Changpinyo等人，2021）、ALT200M（Hu等人，2021a），以及按照Hu等人（2021a）的类似收集程序收集的额外6亿个数据。

然而，这是论文中称为“GIT”的模型的训练数据，该模型并未开源。

此检查点是“GIT - large”，它是GIT的一个较小变体，在2000万个图像 - 文本对上进行训练。

接下来，该模型在VQAv2上进行了微调。

更多详细信息请参阅论文中的表11。