git-large-r-coco开源图像转文本模型 - 免费根据图像生成描述性文本

首页

Git Large R Coco

由 microsoft 开发

GIT是一个基于Transformer的生成式图像到文本模型，能够根据图像生成描述性文本。

图像生成文本

Transformers

支持多种语言开源协议:MIT #图像描述生成 #视觉问答 #多模态Transformer

下载量 86

发布时间 : 1/22/2023

模型简介

GIT模型通过结合CLIP图像标记和文本标记，使用Transformer解码器架构，在大量图像-文本对上进行训练，能够执行图像描述生成、视觉问答等任务。

模型特点

双向图像注意力

模型对图像块标记具有完全访问权限，使用双向注意力机制处理图像信息。

因果文本生成

在生成文本时使用因果注意力掩码，仅能访问之前的文本标记，确保生成连贯的文本描述。

多任务能力

不仅限于图像描述生成，还可用于视觉问答和图像分类等多种视觉语言任务。

模型能力

图像描述生成

视觉问答(VQA)

图像分类

视频描述生成

使用案例

内容生成

自动图像标注

为社交媒体或内容管理系统中的图像自动生成描述性文本

提高内容可访问性和搜索引擎优化

辅助技术

视觉辅助

为视障人士提供图像内容的语音描述

增强数字内容可访问性

🚀 GIT (GenerativeImage2Text) 大尺寸模型，在COCO数据集上微调，R*

R = 通过移除cc12m数据集中一些冒犯性描述进行重新训练

GIT（GenerativeImage2Text的缩写）模型，大尺寸版本，在COCO数据集上进行了微调。该模型由Wang等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，并首次在此仓库发布。

免责声明：发布GIT的团队并未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

GIT是一个基于CLIP图像标记和文本标记的Transformer解码器。该模型使用“教师强制”方法在大量的（图像，文本）对上进行训练。

模型的目标很简单，即在给定图像标记和先前文本标记的情况下，预测下一个文本标记。

在预测下一个文本标记时，模型可以完全访问（即使用双向注意力掩码）图像块标记，但只能访问先前的文本标记（即对文本标记使用因果注意力掩码）。

GIT架构

这使得该模型可用于以下任务：

图像和视频描述
图像和视频的视觉问答（VQA）
甚至图像分类（只需将模型基于图像进行条件设置，并要求它以文本形式生成图像的类别）

🚀 快速开始

你可以使用原始模型进行图像描述。请查看模型中心以查找针对你感兴趣的任务进行微调的版本。

如何使用

关于代码示例，请参考文档。

📚 详细文档

训练数据

根据论文所述：

我们收集了8亿个图像 - 文本对用于预训练，其中包括COCO（Lin等人，2014）、Conceptual Captions（CC3M）（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome（VG）（Krishna等人，2016）、Conceptual Captions（CC12M）（Changpinyo等人，2021）、ALT200M（Hu等人，2021a）以及按照Hu等人（2021a）中类似收集程序收集的额外6亿个数据。

=> 然而，这是论文中称为“GIT”的模型的数据，该模型并未开源。

此检查点是“GIT-large”，它是GIT的一个较小变体，在2000万个图像 - 文本对上进行训练。

接下来，该模型在COCO数据集上进行了微调。

更多详细信息请参阅论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表11。

预处理

关于训练期间预处理的详细信息，请参考原始仓库。

在验证期间，首先对每个图像的较短边进行调整大小，然后进行中心裁剪以达到固定大小的分辨率。接下来，使用ImageNet的均值和标准差在RGB通道上对帧进行归一化。

🔧 技术细节

关于评估结果，请参考论文 GIT: A Generative Image-to-text Transformer for Vision and Language。

📄 许可证

本项目采用MIT许可证。

属性	详情
模型类型	基于CLIP图像标记和文本标记的Transformer解码器
训练数据	8亿个图像 - 文本对用于预训练，“GIT-large”在2000万个图像 - 文本对上训练并在COCO数据集上微调