git-base-finetune开源图像转文本模型 - 免费将视觉内容变描述性文本

首页

Git Base Finetune

由 wangjin2000 开发

GIT是一个基于Transformer的生成式图像到文本模型，能够将视觉内容转换为描述性文本。

图像生成文本

Transformers

支持多种语言开源协议:MIT #图像描述生成 #视觉问答 #多模态Transformer

下载量 18

发布时间 : 5/23/2023

模型简介

GIT模型通过结合CLIP图像标记和文本标记的Transformer解码器，实现图像到文本的转换。它能够生成图像描述、进行视觉问答甚至图像分类。

模型特点

双向图像注意力

模型对图像块标记具有完全访问权限，使用双向注意力掩码，能更好地理解图像内容。

因果文本生成

在预测下一个文本标记时仅能访问先前的文本标记，使用因果注意力掩码，确保生成连贯的文本。

多任务适应性

模型可用于图像描述生成、视觉问答和图像分类等多种视觉语言任务。

模型能力

图像描述生成

视觉问答

图像分类

视频描述生成

使用案例

内容生成

自动图像标注

为图像生成描述性文本，可用于图像检索和内容管理。

辅助技术

视觉辅助

为视障人士提供图像内容的文字描述。

教育

视觉学习辅助

帮助学生理解复杂图像内容，生成解释性文本。

🚀 GIT (GenerativeImage2Text) 基础尺寸模型

GIT（GenerativeImage2Text 的缩写）模型的基础尺寸版本。该模型由 Wang 等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，并首次在此仓库发布。

声明：发布 GIT 的团队并未为此模型撰写模型卡片，此模型卡片由 Hugging Face 团队编写。

✨ 主要特性

GIT 是一个基于 CLIP 图像令牌和文本令牌的 Transformer 解码器。该模型在大量的（图像，文本）对上使用“教师强制”方法进行训练。

模型的目标很简单，即在给定图像令牌和先前文本令牌的情况下，预测下一个文本令牌。

在预测下一个文本令牌时，模型可以完全访问（即使用双向注意力掩码）图像块令牌，但只能访问先前的文本令牌（即对文本令牌使用因果注意力掩码）。

GIT 架构

这使得该模型可用于以下任务：

图像和视频字幕生成
图像和视频的视觉问答（VQA）
甚至图像分类（只需让模型基于图像进行条件设定，并要求它以文本形式生成图像类别）

🚀 快速开始

你可以使用原始模型进行图像字幕生成。请查看模型中心，以查找针对你感兴趣的任务进行微调的版本。

如何使用

关于代码示例，请参考文档。

📚 详细文档

训练数据

根据论文所述：

我们收集了 8 亿个图像 - 文本对用于预训练，其中包括 COCO（Lin 等人，2014）、Conceptual Captions (CC3M)（Sharma 等人，2018）、SBU（Ordonez 等人，2011）、Visual Genome (VG)（Krishna 等人，2016）、Conceptual Captions (CC12M)（Changpinyo 等人，2021）、ALT200M（Hu 等人，2021a），以及按照 Hu 等人（2021a）中类似收集程序收集的额外 6 亿个数据。

不过，这是论文中称为“GIT”的模型的训练数据，该模型并未开源。

此检查点对应的是“GIT-base”，它是 GIT 的一个较小变体，在 1000 万个图像 - 文本对上进行训练。

更多详细信息请参阅论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表 11。