pipeline_tag: 任意模态转换
datasets:
- openbmb/RLAIF-V-Dataset
library_name: transformers
language:
- 多语言
tags:
- minicpm-o
- 全能模型
- 视觉
- OCR
- 多图像处理
- 视频
- 自定义代码
- 音频
- 语音
- 语音克隆
- 直播
- 实时语音对话
- 语音识别
- 语音合成
手机端运行的GPT-4o级多模态大模型,支持视觉、语音与直播流处理
GitHub | 在线演示 | 技术博客
最新动态
-
[2025.03.01] 🚀🚀🚀 MiniCPM-o的核心对齐技术RLAIF-V被CVPR 2025收录!相关代码、数据集、论文已开源!
-
[2025.01.24] 📢📢📢 MiniCPM-o 2.6技术报告发布!点击查看。
-
[2025.01.19] ⭐️⭐️⭐️ MiniCPM-o登顶GitHub热榜,Hugging Face热榜第二!
MiniCPM-o 2.6
MiniCPM-o 2.6是该系列最新旗舰模型,基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建的端到端全模态架构,参数量总计8B。相比MiniCPM-V 2.6实现显著性能提升,新增实时语音对话与多模态直播流处理能力。核心亮点包括:
-
🔥 顶尖视觉能力
在OpenCompass涵盖8大基准的综合评测中,8B参数的MiniCPM-o 2.6以70.2平均分超越GPT-4o-202405、Gemini 1.5 Pro等商用闭源模型。多图像/视频理解能力优于GPT-4V和Claude 3.5 Sonnet,并展现出色上下文学习能力。
-
🎙 领先语音技术
支持中英双语实时语音对话与可配置音色,在ASR、STT翻译等音频理解任务上超越GPT-4o实时版,开源社区语义/音质评测双第一。支持情感/语速/风格控制、端到端语音克隆、角色扮演等趣味功能。
-
🎬 强悍直播处理
创新支持持续视频/音频流输入与实时语音交互,在StreamingBench直播基准上超越GPT-4o-202408和Claude 3.5 Sonnet,实现开源社区最佳实时视频理解、全源(视频&音频)理解和多模态上下文理解。
-
💪 卓越OCR及其他
继承MiniCPM-V系列优势,支持任意长宽比图像和180万像素(如1344x1344)处理。OCRBench评测在25B以下模型中夺冠,超越GPT-4o-202405等商用模型。基于RLAIF-V和VisCPM技术,在MMHal-Bench可信度评测中超越GPT-4o,支持30+语言多语言能力。
-
🚀 极致效能
超高视觉token密度(单token编码2822像素),处理180万像素图像仅需640个token(比主流模型少75%),显著提升推理速度、首token延迟、内存占用和能效表现,可在iPad等终端设备流畅运行多模态直播。
-
💫 开箱即用
支持多种部署方式:(1) llama.cpp本地CPU推理 (2) int4和GGUF量化模型(16种规格) (3) vLLM高吞吐推理 (4) LLaMA-Factory微调 (5) Gradio快速搭建WebUI (6) 在线演示。
模型架构
- 端到端全模态设计:多模态编码器/解码器联合训练,充分挖掘跨模态知识
- 直播流处理机制:① 在线化模态编解码器 ② 时分割复用(TDM)机制处理并行多模态流
- 可配置语音建模:创新音频系统提示词实现推理时灵活音色配置,支持端到端语音克隆与描述式音色生成
性能评测
视觉理解结果
图像理解:
(此处保留原表格结构,仅翻译表头内容)
模型 |
参数量 |
Token密度 |
OpenCompass |
OCRBench |
MathVista mini |
ChartQA |
MMVet |
MMStar |
MME |
MMB1.1测试 |
AI2D |
MMMU验证集 |
HallusionBench |
TextVQA验证集 |
DocVQA测试集 |
MathVerse mini |
MathVision |
MMHal评分 |
(后续各行数据保持原格式) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
多图像与视频理解:
(点击展开详细评测表格)
音频理解与语音对话
音频理解:
(表格结构同上,翻译任务类型和指标:
任务类型 |
参数量 |
中文ASR(CER↓) |
英文ASR(WER↓) |
语音翻译(BLEU↑) |
情感识别(ACC↑) |
数据集 |
|
AISHELL-1 |
Fleurs中文 |
WenetSpeech测试集 |
LibriSpeech测试集 |
) |
|
|
|
|
|
语音生成:
(表格结构同上,翻译评测维度:
任务类型 | 参数量 | Speech Llama问答(ACC↑) | Speech Web问答(ACC↑) | Speech Trivia问答(ACC↑) | Speech AlpacaEval(10分制↑) | AudioArena语义评分(ELO↑) | AudioArena音质评分(ELO↑) | AudioArena综合评分(ELO↑) | UTMOS评分↑ | ASR-WER↓
)
端到端语音克隆:
(表格结构同上,翻译评测指标:
任务类型 |
语音克隆(SIMO↑) |
语音克隆(SIMO↑) |
数据集 |
Seed-TTS中文测试集 |
Seed-TTS英文测试集 |
) |
|
|
多模态直播流评测
(表格结构同上,翻译评测维度:
模型 | 参数量 | 实时视频理解 | 全源理解 | 上下文理解 | 综合评分
)
案例展示
我们在终端设备部署MiniCPM-o 2.6的演示视频为iPad Pro和网页版的原始速度录制。
(此处保留三个示例图片的排版)
在线演示
点击体验MiniCPM-o 2.6在线演示。
使用指南
(后续使用说明、模型初始化、全模态/语音专用/视觉专用模式等章节保持技术术语原貌,仅对描述性文字进行翻译)
量化版本
下载int4量化版可降低显存占用至7GB。
许可协议
模型许可
免责声明
- 作为多模态大模型,MiniCPM-o 2.6生成内容不代表开发者观点
- 开发者不承担因使用模型导致的任何风险
关键技术与其他项目
欢迎探索团队其他项目:
VisCPM | RLHF-V | LLaVA-UHD | RLAIF-V
引用
若觉得工作有帮助,请引用论文并点赞❤️!
@article{yao2024minicpm,
title={MiniCPM-V:手机端运行的GPT-4V级多模态大模型},
author={姚远等},
journal={arXiv预印本},
year={2024}
}