blip2-opt-6.7b开源视觉语言模型 - 免费实现图像文本生成与视觉问答

首页

Blip2 Opt 6.7b

由 merve 开发

BLIP-2 是一种视觉语言模型，结合了图像编码器和大型语言模型，用于图像到文本生成和视觉问答任务。

图像生成文本

Transformers

英语开源协议:MIT #图像描述生成 #视觉问答 #冻结参数训练

下载量 26

发布时间 : 10/4/2023

模型简介

BLIP-2 包含一个图像编码器、查询转换器（Q-Former）和一个大型语言模型（OPT-6.7b），通过冻结图像编码器和语言模型，训练查询转换器来实现图像到文本的生成。

模型特点

冻结预训练模型

图像编码器和大型语言模型（OPT-6.7b）的权重保持冻结，仅训练查询转换器，减少计算资源需求。

多任务支持

支持图像描述生成、视觉问答和图像对话等多种任务。

高效嵌入空间桥接

通过查询转换器（Q-Former）将图像编码器的输出映射到语言模型的嵌入空间。

模型能力

图像到文本生成

视觉问答

图像对话

使用案例

图像理解

图像描述生成

为输入的图像生成自然语言描述。

视觉问答

根据图像内容回答相关问题。

交互式应用

图像对话

基于图像和对话历史进行多轮对话。

🚀 BLIP-2, OPT-6.7b，仅预训练版本

BLIP-2模型借助了OPT-6.7b（一个拥有67亿参数的大语言模型）。该模型由Li等人在论文BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models中提出，并首次在此仓库发布。

免责声明：发布BLIP-2的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队撰写。

🚀 快速开始

你可以使用原始模型，根据给定的图像和可选文本进行条件文本生成。可以在模型中心查找针对你感兴趣的任务进行微调后的版本。

✨ 主要特性

多任务处理：可用于图像描述、视觉问答（VQA）以及类似聊天的对话等任务。
架构创新：由类似CLIP的图像编码器、查询变换器（Q-Former）和大语言模型组成。

📚 详细文档

模型描述

BLIP-2由3个模型组成：一个类似CLIP的图像编码器、一个查询变换器（Q-Former）和一个大语言模型。

作者从预训练的检查点初始化图像编码器和大语言模型的权重，并在训练查询变换器时保持它们冻结。查询变换器是一个类似BERT的变换器编码器，它将一组“查询令牌”映射到查询嵌入，从而弥合图像编码器的嵌入空间和大语言模型之间的差距。

该模型的目标很简单，即根据查询嵌入和之前的文本预测下一个文本令牌。

模型架构

这使得该模型可用于以下任务：

图像描述
视觉问答（VQA）
通过将图像和之前的对话作为提示输入到模型中进行类似聊天的对话

直接使用和下游使用

你可以使用原始模型，根据给定的图像和可选文本进行条件文本生成。可以在模型中心查找针对你感兴趣的任务进行微调后的版本。

偏差、风险、局限性和伦理考量

BLIP2-OPT使用现成的OPT作为语言模型，它继承了Meta模型卡片中提到的相同风险和局限性。

与其他大语言模型一样，训练数据的多样性（或缺乏多样性）会对我们模型的质量产生下游影响，OPT-175B在偏差和安全性方面存在局限性。OPT-175B在生成多样性和幻觉方面也可能存在质量问题。一般来说，OPT-175B无法避免困扰现代大语言模型的诸多问题。

BLIP2在从互联网收集的图像 - 文本数据集（例如LAION）上进行了微调。因此，该模型本身可能容易生成同样不适当的内容，或者复制底层数据中固有的偏差。

BLIP2尚未在现实世界的应用中进行测试，不应直接部署到任何应用程序中。研究人员应首先仔细评估该模型在其部署的特定环境中的安全性和公平性。

如何使用

关于代码示例，请参考文档。

📄 许可证

本项目采用MIT许可证。

属性	详情
模型类型	图像到文本生成模型
训练数据	从互联网收集的图像 - 文本数据集，如LAION

⚠️ 重要提示

BLIP2尚未在现实世界的应用中进行测试，不应直接部署到任何应用程序中。研究人员应首先仔细评估该模型在其部署的特定环境中的安全性和公平性。

💡 使用建议

可以在模型中心查找针对你感兴趣的任务进行微调后的版本。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文