B

Blip2 Opt 6.7b 8bit

由 Mediocreatmybest 开发
BLIP-2 是一种视觉语言模型,结合了图像编码器和大型语言模型(OPT-6.7b),用于图像到文本生成任务。
下载量 16
发布时间 : 7/8/2023
模型介绍
内容详情
替代品

模型简介

BLIP-2包含图像编码器、查询转换器和大型语言模型(OPT-6.7b),能够进行图像描述生成、视觉问答等任务。

模型特点

冻结预训练模型
保持图像编码器和语言模型权重冻结,仅训练查询转换器
跨模态桥接
通过查询转换器(Q-Former)连接视觉和语言模态
高效训练
仅需训练少量参数即可实现跨模态对齐
量化支持
支持8位/fp4/float16等多种量化方式

模型能力

图像描述生成
视觉问答(VQA)
基于图像的对话
图像到文本转换

使用案例

内容生成
自动图像标注
为图像生成描述性文本
问答系统
视觉问答
回答关于图像内容的问题
辅助功能
视觉辅助
为视障人士描述图像内容