M

Mblip Mt0 Xl

由 Gregor 开发
mBLIP是一个多语言视觉-语言模型,基于BLIP-2架构,支持96种语言的图像描述生成和视觉问答任务。
下载量 374
发布时间 : 7/10/2023
模型介绍
内容详情
替代品

模型简介

mBLIP是一个BLIP-2模型,由视觉变换器(ViT)、查询变换器(Q-Former)和大型语言模型(LLM)组成,通过多语言任务混合重新对齐到多语言LLM(mt0-xl),支持图像描述生成和视觉问答任务。

模型特点

多语言支持
支持96种语言的图像理解和生成任务
高效对齐
通过多语言任务混合重新对齐视觉和语言组件
零样本能力
可在零样本设置下进行条件文本生成

模型能力

图像转文本
多语言图像描述生成
视觉问答
多语言理解

使用案例

内容生成
多语言图像描述
为图像生成不同语言的描述
可生成96种语言的图像描述
问答系统
多语言视觉问答
回答关于图像内容的问题
支持96种语言的问答