M

Minicpm O 2 6

由 openbmb 开发
MiniCPM-o 2.6是一款手机端运行的GPT-4o级多模态大模型,支持视觉、语音与直播流处理
下载量 178.38k
发布时间 : 1/12/2025
模型介绍
内容详情
替代品

模型简介

基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建的端到端全模态架构,参数量总计8B。相比MiniCPM-V 2.6实现显著性能提升,新增实时语音对话与多模态直播流处理能力。

模型特点

顶尖视觉能力
在OpenCompass涵盖8大基准的综合评测中超越GPT-4o-202405、Gemini 1.5 Pro等商用闭源模型
领先语音技术
支持中英双语实时语音对话与可配置音色,在ASR、STT翻译等音频理解任务上超越GPT-4o实时版
强悍直播处理
创新支持持续视频/音频流输入与实时语音交互,实现开源社区最佳实时视频理解
卓越OCR能力
OCRBench评测在25B以下模型中夺冠,支持任意长宽比图像和180万像素处理
极致效能
超高视觉token密度(单token编码2822像素),可在iPad等终端设备流畅运行多模态直播

模型能力

视觉理解
语音识别
语音合成
实时语音对话
多图像处理
视频理解
OCR
语音克隆
直播流处理
多语言支持

使用案例

智能助手
实时语音助手
支持中英双语实时语音交互,可配置音色和情感风格
在AudioArena语义/音质评测双第一
多模态客服
同时处理语音、图像和文本输入,提供综合解决方案
在MMHal-Bench可信度评测中超越GPT-4o
内容处理
直播内容分析
实时处理直播视频流,提供内容理解和互动
在StreamingBench直播基准上超越GPT-4o-202408
文档OCR
高精度识别任意长宽比文档
OCRBench评测在25B以下模型中夺冠
创意应用
语音克隆
支持端到端语音克隆与描述式音色生成
在Seed-TTS测试集上表现优异
多模态创作
基于视觉和语音输入的创意内容生成