git-large-r-textcaps开源模型 - 免费支持图像描述、视觉问答等应用

首页

Git Large R Textcaps

由 microsoft 开发

GIT是一种基于CLIP图像标记和文本标记的双条件Transformer解码器，用于图像描述生成和视觉问答等任务。

图像生成文本

Transformers

支持多种语言开源协议:MIT #图像描述生成 #视觉问答 #多模态Transformer

下载量 51

发布时间 : 1/22/2023

模型简介

GIT（GenerativeImage2Text的缩写）模型的大尺寸版本，基于TextCaps微调。该模型通过CLIP图像标记和文本标记的双条件Transformer解码器实现图像到文本的生成。

模型特点

双条件Transformer解码器

结合CLIP图像标记和文本标记，实现图像到文本的生成。

多任务支持

可用于图像描述生成、视觉问答（VQA）和图像分类等多种任务。

大规模预训练

基于2000万图像-文本对训练，并在TextCaps上微调。

模型能力

图像描述生成

视觉问答（VQA）

图像分类

使用案例

图像理解

图像描述生成

为输入的图像生成详细的文本描述。

视觉问答

回答关于图像内容的自然语言问题。

图像分类

通过生成文本类别对图像进行分类。

🚀 GIT (GenerativeImage2Text) 大尺寸模型，在TextCaps上微调，R*

R 表示通过移除 cc12m 数据集中一些冒犯性描述后重新训练

GIT（GenerativeImage2Text 的缩写）大尺寸版本模型，在 TextCaps 上进行了微调。该模型由 Wang 等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，并首次在此仓库发布。

免责声明：发布 GIT 的团队未为此模型撰写模型卡片，此模型卡片由 Hugging Face 团队撰写。

✨ 主要特性

GIT 是一个基于 CLIP 图像令牌和文本令牌的 Transformer 解码器。该模型在大量的（图像，文本）对上使用“教师强制”方法进行训练。

模型的目标很简单，即在给定图像令牌和先前文本令牌的情况下，预测下一个文本令牌。

在预测下一个文本令牌时，模型可以完全访问（即使用双向注意力掩码）图像块令牌，但只能访问先前的文本令牌（即对文本令牌使用因果注意力掩码）。

GIT 架构

这使得该模型可用于以下任务：

图像和视频描述
图像和视频的视觉问答（VQA）
甚至图像分类（只需将模型基于图像进行条件设置，并要求它以文本形式生成图像的类别）

🚀 快速开始

你可以使用原始模型进行图像描述。请查看模型中心，以查找针对你感兴趣的任务进行微调的版本。

如何使用

有关代码示例，请参考文档。

📚 详细文档

训练数据

根据论文所述：

我们收集了 8 亿个图像 - 文本对用于预训练，其中包括 COCO（Lin 等人，2014）、Conceptual Captions（CC3M）（Sharma 等人，2018）、SBU（Ordonez 等人，2011）、Visual Genome（VG）（Krishna 等人，2016）、Conceptual Captions（CC12M）（Changpinyo 等人，2021）、ALT200M（Hu 等人，2021a），以及按照 Hu 等人（2021a）中类似的收集程序收集的额外 6 亿个数据。

然而，这是论文中所提到的“GIT”模型的数据，该模型并未开源。

此检查点对应的是“GIT - large”，它是 GIT 的一个较小变体，在 2000 万个图像 - 文本对上进行训练。

接下来，该模型在 TextCaps 上进行了微调。

更多详细信息请参阅论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表 11。

预处理

关于训练期间预处理的详细信息，请参考原始仓库。

在验证期间，首先调整每个图像的较短边大小，然后进行中心裁剪以达到固定大小的分辨率。接下来，使用 ImageNet 的均值和标准差在 RGB 通道上对帧进行归一化处理。

评估结果

有关评估结果，请参考论文 GIT: A Generative Image-to-text Transformer for Vision and Language。

📄 许可证

本项目采用 MIT 许可证。

属性	详情
模型类型	基于 Transformer 解码器的图像 - 文本生成模型
训练数据	8 亿个图像 - 文本对用于预训练（包含 COCO、Conceptual Captions 等），“GIT - large”在 2000 万个图像 - 文本对上训练并在 TextCaps 上微调