M

Mblip Bloomz 7b

由 Gregor 开发
mBLIP是一个多语言视觉-语言模型,基于BLIP-2架构,支持96种语言的图像描述生成和视觉问答任务。
下载量 21
发布时间 : 9/21/2023
模型介绍
内容详情
替代品

模型简介

mBLIP是一个高效的视觉-语言模型,由视觉变换器(ViT)、查询变换器(Q-Former)和大型语言模型(BLOOMZ-7B)组成,支持多语言图像理解和生成任务。

模型特点

多语言支持
支持96种语言的图像理解和生成任务
高效对齐
通过多语言任务混合将视觉组件与多语言LLM对齐
多功能应用
支持图像描述生成和视觉问答等多种任务
灵活部署
支持全精度、半精度和低精度(8位/4位)推理

模型能力

多语言图像描述生成
多语言视觉问答
跨模态理解
多语言文本生成

使用案例

内容生成
多语言图像描述
为图像生成不同语言的描述文本
可生成96种语言的准确图像描述
教育
多语言视觉问答
用不同语言回答关于图像内容的问题
支持96种语言的视觉问答