G

Git Large R Textcaps

由 microsoft 开发
GIT是一种基于CLIP图像标记和文本标记的双条件Transformer解码器,用于图像描述生成和视觉问答等任务。
下载量 51
发布时间 : 1/22/2023
模型介绍
内容详情
替代品

模型简介

GIT(GenerativeImage2Text的缩写)模型的大尺寸版本,基于TextCaps微调。该模型通过CLIP图像标记和文本标记的双条件Transformer解码器实现图像到文本的生成。

模型特点

双条件Transformer解码器
结合CLIP图像标记和文本标记,实现图像到文本的生成。
多任务支持
可用于图像描述生成、视觉问答(VQA)和图像分类等多种任务。
大规模预训练
基于2000万图像-文本对训练,并在TextCaps上微调。

模型能力

图像描述生成
视觉问答(VQA)
图像分类

使用案例

图像理解
图像描述生成
为输入的图像生成详细的文本描述。
视觉问答
回答关于图像内容的自然语言问题。
图像分类
图像分类
通过生成文本类别对图像进行分类。