B

Blip2 Opt 6.7b

由 merve 开发
BLIP-2 是一种视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本生成和视觉问答任务。
下载量 26
发布时间 : 10/4/2023
模型介绍
内容详情
替代品

模型简介

BLIP-2 包含一个图像编码器、查询转换器(Q-Former)和一个大型语言模型(OPT-6.7b),通过冻结图像编码器和语言模型,训练查询转换器来实现图像到文本的生成。

模型特点

冻结预训练模型
图像编码器和大型语言模型(OPT-6.7b)的权重保持冻结,仅训练查询转换器,减少计算资源需求。
多任务支持
支持图像描述生成、视觉问答和图像对话等多种任务。
高效嵌入空间桥接
通过查询转换器(Q-Former)将图像编码器的输出映射到语言模型的嵌入空间。

模型能力

图像到文本生成
视觉问答
图像对话

使用案例

图像理解
图像描述生成
为输入的图像生成自然语言描述。
视觉问答
根据图像内容回答相关问题。
交互式应用
图像对话
基于图像和对话历史进行多轮对话。