Qwen2.5-Omni-3B-GGUF开源多模态模型 - 感知多形式信息并流式输出响应

首页

Qwen2.5 Omni 3B GGUF

由 NexaAI 开发

Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型，能够感知文本、图像、音频和视频等多种模态信息，同时以流式方式生成文本和自然语音响应。

多模态融合

Transformers

英语开源协议:其他 #多模态交互 #实时语音生成 #端到端架构

下载量 254

发布时间 : 7/1/2025

模型简介

这是一个支持多模态交互的AI模型，能够处理文本、图像、音频和视频输入，并生成相应的文本和语音输出。

模型特点

全模态支持

能够同时处理文本、图像、音频和视频输入

流式生成

支持实时流式生成文本和自然语音响应

新颖架构

采用Thinker-Talker架构和TMRoPE位置编码

高性能语音生成

在语音生成方面超越许多现有方案，具有卓越的鲁棒性和自然度

模型能力

文本理解与生成

图像分析

语音识别

语音合成

视频理解

多模态推理

实时交互

使用案例

智能助手

实时语音对话

支持自然流畅的语音对话交互

在VoiceBench测试中表现优异

内容理解

多模态内容分析

同时分析图像、视频和音频内容

在MMAU音频理解测试中达到63.3%准确率

翻译服务

语音翻译

实现多种语言间的语音翻译

在CoVoST2测试中英语-德语翻译达到30.2 BLEU分数

🚀 NexaAI/Qwen2.5-Omni-3B-GGUF

Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型，能够感知文本、图像、音频和视频等多种模态信息，同时以流式方式生成文本和自然语音响应，为多模态交互提供了强大的支持。

🚀 快速开始

安装 nexa-sdk 后即可直接运行。在 nexa-sdk 命令行界面中执行以下命令：

NexaAI/Qwen2.5-Omni-3B-GGUF

可用的量化版本

文件名	量化类型	文件大小	拆分	描述
Qwen2.5-Omni-3B-4bit.gguf	4bit	2.1 GB	false	轻量级 4 位量化，用于快速推理。
Qwen2.5-Omni-3B-Q8_0.gguf	Q8_0	3.62 GB	false	高质量 8 位量化。
Qwen2.5-Omni-3Bq2_k.gguf	Q2_K	4 Bytes	false	2 位量化，最适合极低资源使用场景。
mmproj-Qwen2.5-Omni-3B-Q8_0.gguf	Q8_0	1.54 GB	false	Q8_0 模型所需的视觉适配器。

✨ 主要特性

全模态与新颖架构：提出了 Thinker - Talker 架构，这是一种端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式方式同步生成文本和自然语音响应。此外，还提出了一种新颖的位置嵌入，名为 TMRoPE（时间对齐多模态旋转位置编码），用于同步视频输入与音频的时间戳。
实时语音和视频聊天：架构专为全实时交互而设计，支持分块输入和即时输出。
自然且强大的语音生成：在语音生成方面超越了许多现有的流式和非流式替代方案，展现出卓越的鲁棒性和自然度。
跨模态的强大性能：与同等规模的单模态模型相比，在所有模态上均表现出色。Qwen2.5 - Omni 在音频能力上优于同等规模的 Qwen2 - Audio，并且在性能上与 Qwen2.5 - VL - 7B 相当。
出色的端到端语音指令遵循能力：Qwen2.5 - Omni 在端到端语音指令遵循方面的表现与其在文本输入时的有效性相媲美，这在 MMLU 和 GSM8K 等基准测试中得到了证明。

📚 详细文档

模型架构

性能评估

我们对 Qwen2.5 - Omni 进行了全面评估，与同等规模的单模态模型和闭源模型（如 Qwen2.5 - VL - 7B、Qwen2 - Audio 和 Gemini - 1.5 - pro）相比，它在所有模态上均表现出强大的性能。在需要整合多种模态的任务中，如 OmniBench，Qwen2.5 - Omni 达到了最先进的性能水平。此外，在单模态任务中，它在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）和语音生成（Seed - tts - eval 和主观自然度）等领域表现出色。

多模态 -> 文本

数据集	模型	性能
语音 \| 声音事件 \| 音乐 \| 平均	Gemini - 1.5 - Pro	42.67%\|42.26%\|46.23%\|42.91%
	MIO - Instruct	36.96%\|33.58%\|11.32%\|33.80%
	AnyGPT (7B)	17.77%\|20.75%\|13.21%\|18.04%
	video - SALMONN	34.11%\|31.70%\|56.60%\|35.64%
	UnifiedIO2 - xlarge	39.56%\|36.98%\|29.25%\|38.00%
	UnifiedIO2 - xxlarge	34.24%\|36.98%\|24.53%\|33.98%
	MiniCPM - o	-\|-\|-\|40.50%
	Baichuan - Omni - 1.5	-\|-\|-\|42.90%
	Qwen2.5 - Omni - 3B	52.14%\|52.08%\|52.83%\|52.19%
	Qwen2.5 - Omni - 7B	55.25%\|60.00%\|52.83%\|56.13%

音频 -> 文本

自动语音识别（ASR）

数据集	模型	性能
Librispeech 开发集 - 干净 \| 开发集 - 其他 \| 测试集 - 干净 \| 测试集 - 其他	SALMONN	-\|-\|2.1\|4.9
	SpeechVerse	-\|-\|2.1\|4.4
	Whisper - large - v3	-\|-\|1.8\|3.6
	Llama - 3 - 8B	-\|-\|-\|3.4
	Llama - 3 - 70B	-\|-\|-\|3.1
	Seed - ASR - Multilingual	-\|-\|1.6\|2.8
	MiniCPM - o	-\|-\|1.7\| -
	MinMo	-\|-\|1.7\|3.9
	Qwen - Audio	1.8\|4.0\|2.0\|4.2
	Qwen2 - Audio	1.3\|3.4\|1.6\|3.6
	Qwen2.5 - Omni - 3B	2.0\|4.1\|2.2\|4.5
	Qwen2.5 - Omni - 7B	1.6\|3.5\|1.8\|3.4
Common Voice 15 英语 \| 中文 \| 粤语 \| 法语	Whisper - large - v3	9.3\|12.8\|10.9\|10.8
	MinMo	7.9\|6.3\|6.4\|8.5
	Qwen2 - Audio	8.6\|6.9\|5.9\|9.6
	Qwen2.5 - Omni - 3B	9.1\|6.0\|11.6\|9.6
	Qwen2.5 - Omni - 7B	7.6\|5.2\|7.3\|7.5
Fleurs 中文 \| 英语	Whisper - large - v3	7.7\|4.1
	Seed - ASR - Multilingual	-\|3.4
	Megrez - 3B - Omni	10.8\| -
	MiniCPM - o	4.4\| -
	MinMo	3.0\|3.8
	Qwen2 - Audio	7.5\| -
	Qwen2.5 - Omni - 3B	3.2\|5.4
	Qwen2.5 - Omni - 7B	3.0\|4.1
Wenetspeech 测试集 - 网络 \| 测试集 - 会议	Seed - ASR - Chinese	4.7\|5.7
	Megrez - 3B - Omni	-\|16.4
	MiniCPM - o	6.9\| -
	MinMo	6.8\|7.4
	Qwen2.5 - Omni - 3B	6.3\|8.1
	Qwen2.5 - Omni - 7B	5.9\|7.7
Voxpopuli - V1.0 - en	Llama - 3 - 8B	6.2
	Llama - 3 - 70B	5.7
	Qwen2.5 - Omni - 3B	6.6
	Qwen2.5 - Omni - 7B	5.8

语音到文本翻译（S2TT）

数据集	模型	性能
CoVoST2 英语 - 德语 \| 德语 - 英语 \| 英语 - 中文 \| 中文 - 英语	SALMONN	18.6\| -\|33.1\| -
	SpeechLLaMA	-\|27.1\| -\|12.3
	BLSP	14.1\| -\| -\| -
	MiniCPM - o	-\| -\|48.2\|27.2
	MinMo	-\|39.9\|46.7\|26.0
	Qwen - Audio	25.1\|33.9\|41.5\|15.7
	Qwen2 - Audio	29.9\|35.2\|45.2\|24.4
	Qwen2.5 - Omni - 3B	28.3\|38.1\|41.4\|26.6
	Qwen2.5 - Omni - 7B	30.2\|37.7\|41.4\|29.4

语音情感识别（SER）

数据集	模型	性能
Meld	WavLM - large	0.542
	MiniCPM - o	0.524
	Qwen - Audio	0.557
	Qwen2 - Audio	0.553
	Qwen2.5 - Omni - 3B	0.558
	Qwen2.5 - Omni - 7B	0.570

语音声音分类（VSC）

数据集	模型	性能
VocalSound	CLAP	0.495
	Pengi	0.604
	Qwen - Audio	0.929
	Qwen2 - Audio	0.939
	Qwen2.5 - Omni - 3B	0.936
	Qwen2.5 - Omni - 7B	0.939

音乐相关任务

数据集	模型	性能
GiantSteps Tempo	Llark - 7B	0.86
	Qwen2.5 - Omni - 3B	0.88
	Qwen2.5 - Omni - 7B	0.88
MusicCaps	LP - MusicCaps	0.291\|0.149\|0.089\|0.061\|0.129\|0.130
	Qwen2.5 - Omni - 3B	0.325\|0.163\|0.093\|0.057\|0.132\|0.229
	Qwen2.5 - Omni - 7B	0.328\|0.162\|0.090\|0.055\|0.127\|0.225

音频推理

数据集	模型	性能
MMAU 声音 \| 音乐 \| 语音 \| 平均	Gemini - Pro - V1.5	56.75\|49.40\|58.55\|54.90
	Qwen2 - Audio	54.95\|50.98\|42.04\|49.20
	Qwen2.5 - Omni - 3B	70.27\|60.48\|59.16\|63.30
	Qwen2.5 - Omni - 7B	67.87\|69.16\|59.76\|65.60

语音聊天

数据集	模型	性能
VoiceBench AlpacaEval \| CommonEval \| SD - QA \| MMSU	Ultravox - v0.4.1 - LLaMA - 3.1 - 8B	4.55\|3.90\|53.35\|47.17
	MERaLiON	4.50\|3.77\|55.06\|34.95
	Megrez - 3B - Omni	3.50\|2.95\|25.95\|27.03
	Lyra - Base	3.85\|3.50\|38.25\|49.74
	MiniCPM - o	4.42\|4.15\|50.72\|54.78
	Baichuan - Omni - 1.5	4.50\|4.05\|43.40\|57.25
	Qwen2 - Audio	3.74\|3.43\|35.71\|35.72
	Qwen2.5 - Omni - 3B	4.32\|4.00\|49.37\|50.23
	Qwen2.5 - Omni - 7B	4.49\|3.93\|55.71\|61.32
VoiceBench OpenBookQA \| IFEval \| AdvBench \| 平均	Ultravox - v0.4.1 - LLaMA - 3.1 - 8B	65.27\|66.88\|98.46\|71.45
	MERaLiON	27.23\|62.93\|94.81\|62.91
	Megrez - 3B - Omni	28.35\|25.71\|87.69\|46.25
	Lyra - Base	72.75\|36.28\|59.62\|57.66
	MiniCPM - o	78.02\|49.25\|97.69\|71.69
	Baichuan - Omni - 1.5	74.51\|54.54\|97.31\|71.14
	Qwen2 - Audio	49.45\|26.33\|96.73\|55.35
	Qwen2.5 - Omni - 3B	74.73\|42.10\|98.85\|68.81
	Qwen2.5 - Omni - 7B	81.10\|52.87\|99.42\|74.12

图像 -> 文本

数据集	Qwen2.5 - Omni - 7B	Qwen2.5 - Omni - 3B	其他最佳	Qwen2.5 - VL - 7B	GPT - 4o - mini
MMMU_验证集	59.2	53.1	53.9	58.6	60.0
MMMU - Pro_总体	36.6	29.7	-	38.3	37.6
MathVista_{测试集 - 迷你}	67.9	59.4	71.9	68.2	52.5
MathVision_完整集	25.0	20.8	23.1	25.1	-
MMBench - V1.1 - EN_测试集	81.8	77.8	80.5	82.6	76.0
MMVet_加速版	66.8	62.1	67.5	67.1	66.9
MMStar	64.0	55.7	64.0	63.9	54.8
MME_总和	2340	2117	2372	2347	2003
MuirBench	59.2	48.0	-	59.2	-
CRPE_关系	76.5	73.7	-	76.4	-
RealWorldQA_平均	70.3	62.6	71.9	68.5	-
MME - RealWorld_英语	61.6	55.6	-	57.4	-
MM - MT - Bench	6.0	5.0	-	6.3	-
AI2D	83.2	79.5	85.8	83.9	-
TextVQA_验证集	84.4	79.8	83.2	84.9	-
DocVQA_测试集	95.2	93.3	93.5	95.7	-
ChartQA_{测试集 - 平均}	85.3	82.8	84.9	87.3	-
OCRBench_V2_英语	57.8	51.7	-	56.3	-

数据集	Qwen2.5 - Omni - 7B	Qwen2.5 - Omni - 3B	Qwen2.5 - VL - 7B	Grounding DINO	Gemini 1.5 Pro
Refcoco_验证集	90.5	88.7	90.0	90.6	73.2
Refcoco_文本A	93.5	91.8	92.5	93.2	72.9
Refcoco_文本B	86.6	84.0	85.4	88.2	74.6
Refcoco +_验证集	85.4	81.1	84.2	88.2	62.5
Refcoco +_文本A	91.0	87.5	89.1	89.0	63.9
Refcoco +_文本B	79.3	73.2	76.9	75.9	65.0
Refcocog +_验证集	87.4	85.0	87.2	86.1	75.2
Refcocog +_测试集	87.9	85.1	87.2	87.0	76.2
ODinW	42.4	39.2	37.3	55.0	36.7
PointGrounding	66.5	46.2	67.3	-	-

视频（无音频） -> 文本

数据集	Qwen2.5 - Omni - 7B	Qwen2.5 - Omni - 3B	其他最佳	Qwen2.5 - VL - 7B	GPT - 4o - mini
Video - MME_{[具体部分缺失，原文未完整]}	[具体性能未知]	[具体性能未知]	[具体性能未知]	[具体性能未知]	[具体性能未知]