git-large-msrvtt-qa开源模型 - 为MSRVTT-QA任务微调解答视频相关问题

首页

Git Large Msrvtt Qa

由 microsoft 开发

GIT是一种基于CLIP图像标记和文本标记的双条件Transformer解码器，专为MSRVTT-QA任务微调。

图像生成文本

Transformers

支持多种语言开源协议:MIT #视频问答 #生成式图像描述 #CLIP双条件解码

下载量 108

发布时间 : 1/2/2023

模型简介

GIT模型通过教师强制方式在大量图像-文本对上训练，能够预测下一个文本标记，适用于图像与视频描述生成、视觉问答及图像分类等任务。

模型特点

双条件Transformer解码器

结合CLIP图像标记和文本标记，支持双向注意力机制和因果注意力掩码。

多任务适应性

适用于图像与视频描述生成、视觉问答及图像分类等多种任务。

大规模预训练

基于1000万图像-文本对训练，并在MSRVTT-QA上微调。

模型能力

图像描述生成

视频描述生成

视觉问答

图像分类

使用案例

视频理解

视频问答

基于视频内容回答相关问题。

在MSRVTT-QA任务上表现优异。

图像理解

图像描述生成

为图像生成自然语言描述。

图像分类

通过生成文本类别对图像进行分类。

🚀 GIT (GenerativeImage2Text)，大尺寸，在MSRVTT - QA上微调

GIT（GenerativeImage2Text的缩写）模型，大尺寸版本，在MSRVTT - QA上进行了微调。该模型由Wang等人在论文GIT: A Generative Image - to - text Transformer for Vision and Language中提出，并首次在此仓库中发布。

免责声明：发布GIT的团队并未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

🚀 快速开始

本模型可用于视频问答（QA）等任务。若想了解更多代码示例，请参考文档。

✨ 主要特性

多任务适用性：可用于图像和视频字幕生成、图像和视频的视觉问答（VQA），甚至图像分类。
基于Transformer架构：是一个基于Transformer解码器的模型，结合了CLIP图像令牌和文本令牌。

📚 详细文档

模型描述

GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器。该模型在大量的（图像，文本）对上使用“教师强制”方法进行训练。

模型的目标很简单，即给定图像令牌和先前的文本令牌，预测下一个文本令牌。

在预测下一个文本令牌时，模型可以完全访问（即使用双向注意力掩码）图像补丁令牌，但只能访问先前的文本令牌（即对文本令牌使用因果注意力掩码）。

GIT架构

这使得该模型可用于以下任务：

图像和视频字幕生成
图像和视频的视觉问答（VQA）
甚至图像分类（只需将模型基于图像进行条件设置，并要求它以文本形式为其生成一个类别）

预期用途和局限性

你可以使用原始模型进行视频问答（QA）。请查看模型中心，以查找针对你感兴趣的任务进行微调的版本。

训练数据

从论文中可知：

我们收集了8亿个图像 - 文本对用于预训练，其中包括COCO（Lin等人，2014）、Conceptual Captions（CC3M）（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome（VG）（Krishna等人，2016）、Conceptual Captions（CC12M）（Changpinyo等人，2021）、ALT200M（Hu等人，2021a），以及按照Hu等人（2021a）中类似的收集程序收集的额外6亿个数据。

然而，这是论文中称为“GIT”的模型的训练数据，该模型并未开源。

此检查点是“GIT - base”，它是GIT的一个较小变体，在1000万个图像 - 文本对上进行训练。

接下来，该模型在MSRVTT - QA上进行了微调。

更多详细信息请参阅论文GIT: A Generative Image - to - text Transformer for Vision and Language中的表11。