BLIP2-OPT-6.7b_8bit开源视觉语言模型 - 免费将图像转化为文本

首页

Blip2 Opt 6.7b 8bit

由 Mediocreatmybest 开发

BLIP-2 是一种视觉语言模型，结合了图像编码器和大型语言模型(OPT-6.7b)，用于图像到文本生成任务。

图像生成文本

Transformers

英语开源协议:MIT #图像描述生成 #视觉问答 #冻结参数训练

下载量 16

发布时间 : 7/8/2023

模型简介

BLIP-2包含图像编码器、查询转换器和大型语言模型(OPT-6.7b)，能够进行图像描述生成、视觉问答等任务。

模型特点

冻结预训练模型

保持图像编码器和语言模型权重冻结，仅训练查询转换器

跨模态桥接

通过查询转换器(Q-Former)连接视觉和语言模态

高效训练

仅需训练少量参数即可实现跨模态对齐

量化支持

支持8位/fp4/float16等多种量化方式

模型能力

图像描述生成

视觉问答(VQA)

基于图像的对话

图像到文本转换

使用案例

内容生成

自动图像标注

为图像生成描述性文本

问答系统

视觉问答

回答关于图像内容的问题

辅助功能

视觉辅助

为视障人士描述图像内容

🚀 BLIP - 2, OPT - 6.7b，仅预训练版本

BLIP - 2模型借助了OPT - 6.7b（一个拥有67亿参数的大语言模型）。该模型由Li等人在论文BLIP - 2: Bootstrapping Language - Image Pre - training with Frozen Image Encoders and Large Language Models中提出，并首次在此仓库中发布。

免责声明：发布BLIP - 2的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队撰写。

✨ 主要特性

量化支持：支持使用bitsandbytes进行量化，包括8位、fp4、float16以及Safetensors格式。
多任务能力：可用于图像描述、视觉问答、类聊天对话等任务。

📚 详细文档

模型描述

BLIP - 2由3个模型组成：一个类似CLIP的图像编码器、一个查询变换器（Q - Former）和一个大语言模型。

作者从预训练检查点初始化图像编码器和大语言模型的权重，并在训练查询变换器时保持它们冻结。查询变换器是一个类似BERT的变换器编码器，它将一组“查询令牌”映射到查询嵌入，这些嵌入弥合了图像编码器的嵌入空间和大语言模型之间的差距。

该模型的目标很简单，即根据查询嵌入和之前的文本预测下一个文本令牌。

模型架构

这使得该模型可用于以下任务：

图像描述
视觉问答（VQA）
通过将图像和之前的对话作为提示输入模型进行类聊天对话

直接使用和下游使用

你可以使用原始模型在给定图像和可选文本的情况下进行条件文本生成。请查看模型中心以寻找针对你感兴趣的任务进行微调的版本。

偏差、风险、局限性和伦理考量

BLIP2 - OPT使用现成的OPT作为语言模型，它继承了Meta模型卡片中提到的相同风险和局限性。

与其他大语言模型一样，训练数据的多样性（或缺乏多样性）会对模型质量产生下游影响，OPT - 175B在偏差和安全性方面存在局限性。OPT - 175B在生成多样性和幻觉方面也可能存在质量问题。一般来说，OPT - 175B无法避免困扰现代大语言模型的诸多问题。

BLIP2在从互联网收集的图像 - 文本数据集（例如LAION）上进行了微调。因此，该模型本身可能容易生成同样不适当的内容或复制底层数据中固有的偏差。

BLIP2尚未在现实世界应用中进行测试，不应直接部署到任何应用程序中。研究人员应首先仔细评估该模型在其部署的特定环境中的安全性和公平性。

如何使用

有关代码示例，请参考文档。

📄 许可证

本项目采用MIT许可证。

属性	详情
模型类型	图像到文本模型
训练数据	从互联网收集的图像 - 文本数据集，如LAION

⚠️ 重要提示

BLIP2尚未在现实世界应用中进行测试，不应直接部署到任何应用程序中。研究人员应首先仔细评估该模型在其部署的特定环境中的安全性和公平性。

💡 使用建议

可查看模型中心以寻找针对特定任务进行微调的版本。有关代码示例，请参考文档。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文