git-large开源模型 - 免费实现图像到文本生成的实用工具

首页

Git Large

由 microsoft 开发

GIT是基于CLIP图像标记和文本标记的双条件Transformer解码器，用于图像到文本的生成任务

图像生成文本

Transformers

支持多种语言开源协议:MIT #图像字幕生成 #视觉问答 #多模态Transformer

下载量 1,404

发布时间 : 1/2/2023

模型简介

GIT是一个生成式图像到文本的Transformer模型，能够执行图像字幕生成、视觉问答和图像分类等任务。它通过双向注意力处理图像标记，通过因果注意力处理文本标记。

模型特点

双模态处理

同时处理图像和文本标记，使用不同的注意力机制

多任务能力

单一模型可执行多种视觉语言任务

大规模预训练

在2000万图文对上训练（大版本在8亿数据上训练）

模型能力

图像字幕生成

视觉问答

图像分类

视频字幕生成

视频问答

使用案例

内容生成

自动图像描述

为图像生成自然语言描述

可生成准确描述图像内容的文本

视觉理解

图像问答系统

回答关于图像内容的自然语言问题

可正确回答关于图像内容的各种问题

内容分类

零样本图像分类

通过生成类别文本来分类图像

无需特定训练即可进行分类

🚀 GIT (GenerativeImage2Text)，大尺寸版本

GIT（GenerativeImage2Text的缩写）模型的大尺寸版本。它由Wang等人在论文GIT: A Generative Image-to-text Transformer for Vision and Language中提出，并首次在此仓库发布。

免责声明：发布GIT的团队没有为此模型编写模型卡片，因此此模型卡片由Hugging Face团队编写。

✨ 主要特性

GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器。
该模型在大量的（图像，文本）对上使用“教师强制”方法进行训练。
模型的目标是根据图像令牌和之前的文本令牌预测下一个文本令牌。
模型可以访问完整的图像块令牌（即使用双向注意力掩码），但在预测下一个文本令牌时，仅能访问之前的文本令牌（即对文本令牌使用因果注意力掩码）。
可用于图像和视频字幕生成、图像和视频的视觉问答（VQA），甚至图像分类（通过简单地以图像为条件并要求其以文本形式生成类别）等任务。

📚 详细文档

模型描述

GIT是一个Transformer解码器，它以CLIP图像令牌和文本令牌为条件。该模型在大量的（图像，文本）对上使用“教师强制”方法进行训练。模型的目标很简单，即根据图像令牌和之前的文本令牌预测下一个文本令牌。

在预测下一个文本令牌时，模型可以完全访问图像块令牌（即使用双向注意力掩码），但只能访问之前的文本令牌（即对文本令牌使用因果注意力掩码）。

GIT架构

这使得该模型可用于以下任务：

图像和视频字幕生成
图像和视频的视觉问答（VQA）
甚至图像分类（通过简单地以图像为条件并要求其以文本形式生成类别）

预期用途和限制

你可以使用原始模型进行图像字幕生成。请参阅模型中心以查找针对你感兴趣的任务进行微调的版本。

如何使用

有关代码示例，请参考文档。

训练数据

根据论文：

我们收集了8亿个图像 - 文本对用于预训练，其中包括COCO（Lin等人，2014）、Conceptual Captions (CC3M)（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome (VG)（Krishna等人，2016）、Conceptual Captions (CC12M)（Changpinyo等人，2021）、ALT200M（Hu等人，2021a），以及按照Hu等人（2021a）中类似的收集程序收集的额外6亿个数据。

然而，这是论文中称为“GIT”的模型，该模型并未开源。

此检查点是“GIT - large”，它是GIT的一个较小变体，在2000万个图像 - 文本对上进行训练。

更多详细信息请参阅论文中的表11。