M

My Model

由 anoushhka 开发
GIT是一个基于Transformer的图像到文本生成模型,能够根据输入的图像生成描述性文本。
下载量 87
发布时间 : 4/8/2025
模型介绍
内容详情
替代品

模型简介

GIT(GenerativeImage2Text的缩写)是一个基于CLIP图像标记和文本标记的双条件Transformer解码器。模型通过教师强制方式在大量图像-文本对上训练,能够执行图像描述生成、视觉问答等任务。

模型特点

双条件Transformer架构
同时处理图像标记和文本标记,实现图像到文本的生成
多任务能力
支持图像描述生成、视觉问答和图像分类等多种视觉语言任务
大规模预训练
基于1000万图像-文本对进行预训练,并在COCO数据集上微调

模型能力

图像描述生成
视觉问答(VQA)
图像分类
视频描述生成

使用案例

内容生成
自动图像标注
为图像生成描述性文本
可用于社交媒体内容管理或无障碍访问
智能问答
视觉问答系统
回答关于图像内容的自然语言问题
可用于教育或客服场景