MiniCPM-Llama3-V-2_5开源多模态大模型，单多图及视频理解超GPT-4V，iPad可实时用

首页

Minicpm Llama3 V 2 5

由 openbmb 开发

MiniCPM-V 2.6是OpenBMB推出的多模态大模型，在单图、多图及视频理解任务上超越GPT-4V，支持iPad端实时视频理解。

图像生成文本

Transformers

其他#端侧多模态 #超强OCR #多语言支持

下载量 31.48k

发布时间 : 5/19/2024

模型简介

MiniCPM-V 2.6是基于SigLip-400M和Llama3-8B-Instruct构建的多模态大模型，参数量总计8B，在OCR、多语言支持、终端设备部署等方面具有显著优势。

模型特点

顶尖性能

在OpenCompass评测中以65.1的平均分超越GPT-4V-1106、Gemini Pro等商用模型

超强OCR能力

支持任意长宽比图像处理（最高1344x1344/180万像素），在OCRBench评测中获得700+分

多语言支持

支持中英德法西意韩日等30+语言

终端设备高效部署

通过量化、CPU/NPU优化、编译优化等方案，实现在终端设备的高效运行

模型能力

图像理解

文本生成

多语言处理

OCR识别

视频理解

复杂推理

指令跟随

使用案例

文档处理

全文提取

从图像中提取完整文本内容

高精度提取效果

表格转Markdown

将图像中的表格转换为Markdown格式

结构化输出

多语言应用

多语言图像理解

支持30+语言的图像内容理解

跨语言泛化能力

终端设备应用

移动端实时视频理解

在iPad等设备上实现实时视频内容分析

高效运行

🚀 MiniCPM-Llama3-V 2.5：手机上的GPT - 4V级多模态大语言模型

MiniCPM-Llama3-V 2.5是一款强大的多模态大语言模型，能够在手机等设备上运行，达到GPT - 4V级别的性能。它具备领先的性能、强大的OCR能力、多语言支持等特点，为用户带来高效便捷的多模态交互体验。

项目信息

属性	详情
模型类型	多模态大语言模型
训练数据	openbmb/RLAIF - V - Dataset
库名称	transformers
标签	minicpm - v、vision、ocr、custom_code
支持语言	多语言
任务类型	图像 - 文本到文本

GitHub | Demo | 微信

📌 最新消息

置顶消息

[2025.01.14] 🔥🔥 🔥 我们开源了 MiniCPM - o 2.6，相较于 MiniCPM - V 2.6 性能有显著提升，支持实时语音到语音对话和多模态直播。立即试用。
[2024.08.10] 🚀🚀🚀 MiniCPM - Llama3 - V 2.5 现已得到官方 llama.cpp 的全面支持！各种大小的GGUF模型可在此处获取。
[2024.08.06] 🔥🔥🔥 我们开源了 MiniCPM - V 2.6，在单图像、多图像和视频理解方面优于GPT - 4V。它改进了MiniCPM - Llama3 - V 2.5的流行功能，并支持在iPad上进行实时视频理解。立即试用！
[2024.08.03] MiniCPM - Llama3 - V 2.5技术报告发布！详情见此处。
[2024.07.19] MiniCPM - Llama3 - V 2.5现在支持vLLM！详情见此处。
[2024.05.28] 💫 我们现在支持对MiniCPM - Llama3 - V 2.5进行LoRA微调，仅需2块V100 GPU！更多统计信息见此处。
[2024.05.23] 🔥🔥🔥 MiniCPM - V登上GitHub趋势和HuggingFace趋势！我们的演示受到Hugging Face Gradio官方账号推荐，可在此处试用。
[2024.05.20] 我们开源了MiniCPM - Llama3 - V 2.5，它提高了OCR能力，支持30多种语言，是首个达到GPT - 4V级别性能的端侧多模态大语言模型！我们提供高效推理和简单微调。立即试用！

✨ 主要特性

MiniCPM - Llama3 - V 2.5 是MiniCPM - V系列的最新模型。该模型基于SigLip - 400M和Llama3 - 8B - Instruct构建，总共有80亿参数。与MiniCPM - V 2.0相比，它的性能有显著提升。其主要特性包括：

🔥 领先性能：MiniCPM - Llama3 - V 2.5在OpenCompass上的平均得分达到65.1分，这是对11个流行基准的综合评估。仅80亿参数的它，超越了广泛使用的专有模型，如GPT - 4V - 1106、Gemini Pro、Claude 3和Qwen - VL - Max，并大幅优于其他基于Llama 3的多模态大语言模型。
💪 强大的OCR能力：MiniCPM - Llama3 - V 2.5可以处理任意宽高比、像素高达180万（如1344x1344）的图像，在OCRBench上的得分超过700分，超越了GPT - 4o、GPT - 4V - 0409、Qwen - VL - Max和Gemini Pro等专有模型。根据最新用户反馈，MiniCPM - Llama3 - V 2.5现在增强了全文OCR提取、表格转Markdown转换等高实用性功能，并进一步强化了指令遵循和复杂推理能力，提升了多模态交互体验。
🏆 可靠行为：借助最新的 RLAIF - V 方法（RLHF - V [CVPR'24]系列中的最新技术），MiniCPM - Llama3 - V 2.5表现出更可靠的行为。它在Object HalBench上的幻觉率为 10.3%，低于GPT - 4V - 1106（13.6%），在开源社区中达到了最佳水平。数据发布。
🌏 多语言支持：得益于Llama 3强大的多语言能力和 VisCPM 的跨语言泛化技术，MiniCPM - Llama3 - V 2.5将其中英文双语多模态能力扩展到了 包括德语、法语、西班牙语、意大利语、韩语、日语等在内的30多种语言。所有支持的语言。
🚀 高效部署：MiniCPM - Llama3 - V 2.5系统地采用了 模型量化、CPU优化、NPU优化和编译优化，实现了在边缘设备上的高效部署。对于配备高通芯片的手机，我们首次将NPU加速框架QNN集成到llama.cpp中。经过系统优化，MiniCPM - Llama3 - V 2.5实现了 多模态大模型端侧图像编码加速150倍 和 语言解码速度提升3倍。
💫 易于使用：MiniCPM - Llama3 - V 2.5可以通过多种方式轻松使用：
- llama.cpp 和 ollama 支持在本地设备上进行高效的CPU推理。
- GGUF 格式的16种量化模型。
- 仅需2块V100 GPU的高效 LoRA 微调。
- 流式输出。
- 使用 Gradio 和 Streamlit 快速搭建本地WebUI演示。
- 在 HuggingFace Spaces 上进行交互式演示。

评估结果

多模态基准评估

模型在TextVQA、DocVQA、OCRBench、OpenCompass MultiModal Avg、MME、MMBench、MMMU、MathVista、LLaVA Bench、RealWorld QA、Object HalBench等基准测试上的结果如下：

多语言LLaVA Bench评估结果

示例展示

综合示例

端设备部署示例

我们将MiniCPM - Llama3 - V 2.5部署在端设备上。以下演示视频是小米14 Pro的原始屏幕录制，未经过编辑。

🚀 快速开始

在线体验

点击此处试用 MiniCPM - Llama3 - V 2.5 的演示。

本地部署

手机部署

使用Huggingface transformers在NVIDIA GPU上进行推理

在Python 3.10环境下测试的依赖要求如下：

Pillow==10.1.0
torch==2.1.2
torchvision==0.16.2
transformers==4.40.0
sentencepiece==0.1.99

# test.py
import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained('openbmb/MiniCPM-Llama3-V-2_5', trust_remote_code=True, torch_dtype=torch.float16)
model = model.to(device='cuda')

tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-Llama3-V-2_5', trust_remote_code=True)
model.eval()

image = Image.open('xx.jpg').convert('RGB')
question = 'What is in the image?'
msgs = [{'role': 'user', 'content': question}]

res = model.chat(
    image=image,
    msgs=msgs,
    tokenizer=tokenizer,
    sampling=True, # if sampling=False, beam_search will be used by default
    temperature=0.7,
    # system_prompt='' # pass system_prompt if needed
)
print(res)

## if you want to use streaming, please make sure sampling=True and stream=True
## the model.chat will return a generator
res = model.chat(
    image=image,
    msgs=msgs,
    tokenizer=tokenizer,
    sampling=True,
    temperature=0.7,
    stream=True
)

generated_text = ""
for new_text in res:
    generated_text += new_text
    print(new_text, flush=True, end='')

更多使用细节请参考 GitHub。

使用llama.cpp进行推理

MiniCPM - Llama3 - V 2.5现在可以使用llama.cpp运行！更多详情请见我们的 llama.cpp分支。

下载int4量化版本

为了减少GPU内存（8GB）使用，可下载int4量化版本：MiniCPM - Llama3 - V 2_5 - int4。

MiniCPM - V 2.0相关信息

请见此处关于MiniCPM - V 2.0的信息。

📄 许可证

模型许可证

本仓库中的代码遵循 Apache - 2.0 许可证发布。
MiniCPM - V系列模型权重的使用必须严格遵循 MiniCPM Model License.md。
MiniCPM的模型和权重完全免费用于学术研究，填写 "问卷" 注册后，也可免费用于商业用途。

声明

作为一个大语言模型，MiniCPM - Llama3 - V 2.5通过学习大量文本生成内容，但它无法理解、表达个人观点或做出价值判断。MiniCPM - Llama3 - V 2.5生成的任何内容均不代表模型开发者的观点和立场。
我们不对使用MinCPM - V开源模型产生的任何问题负责，包括但不限于数据安全问题、舆论风险，或因模型的误导、误用、传播或滥用而产生的任何风险和问题。

🔗 相关项目

欢迎探索MiniCPM - V 2.6的关键技术和我们团队的其他多模态项目： VisCPM | RLHF - V | LLaVA - UHD | RLAIF - V

📝 引用

如果您觉得我们的工作有帮助，请考虑引用我们的论文并给项目点赞！

@article{yao2024minicpmv,
      title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone}, 
      author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and Chen, Qianyu and Zhou, Huarong and Zou, Zhensheng and Zhang, Haoye and Hu, Shengding and Zheng, Zhi and Zhou, Jie and Cai, Jie and Han, Xu and Zeng, Guoyang and Li, Dahai and Liu, Zhiyuan and Sun, Maosong},
      journal={arXiv preprint 2408.01800},
      year={2024},
}