B

Blip2 Flan T5 Xl

由 Salesforce 开发
BLIP-2是基于Flan T5-xl的视觉语言模型,通过冻结图像编码器和大型语言模型进行预训练,支持图像描述生成和视觉问答等任务。
下载量 91.77k
发布时间 : 2/6/2023
模型介绍
内容详情
替代品

模型简介

BLIP-2包含图像编码器、查询转换器和大型语言模型,通过训练查询转换器来弥合图像和文本之间的嵌入空间差距,可用于图像描述生成、视觉问答等任务。

模型特点

冻结预训练模型
保持图像编码器和大型语言模型的权重冻结,仅训练查询转换器,提高训练效率。
多任务支持
支持图像描述生成、视觉问答和类似聊天的对话等多种任务。
查询转换器
使用类似BERT的查询转换器将查询标记映射为查询嵌入,弥合图像和文本的嵌入空间差距。

模型能力

图像描述生成
视觉问答
图像文本对话

使用案例

图像理解
图像描述生成
根据输入图像生成描述性文本。
视觉问答
回答关于图像内容的自然语言问题。
交互式应用
图像对话
基于图像和文本提示进行类似聊天的对话。