Qwen2.5-Omni-3B-GGUF开源多模态模型 - 处理音视频文本，信息响应高效准确

首页

Qwen2.5 Omni 3B GGUF

由 Mungert 开发

Qwen2.5-Omni-3B GGUF是一个多功能的多模态模型，能够处理文本、图像、音频和视频等多种数据，提供高效准确的信息处理和响应。

多模态融合

Transformers

英语开源协议:其他 #多模态实时交互 #端到端语音视频处理 #低比特高效量化

下载量 648

发布时间 : 6/10/2025

模型简介

Qwen2.5-Omni-3B GGUF是一个端到端的多模态模型，支持文本、图像、音频和视频的感知与处理，具备流式生成文本和自然语音响应的能力。

模型特点

多模态处理能力

支持文本、图像、音频和视频的端到端处理，实现跨模态的信息整合与响应。

实时交互设计

架构设计支持完全实时交互，包括分块输入和即时输出，适用于流式应用场景。

高性能语音生成

在语音生成方面表现出卓越的鲁棒性和自然度，超越许多现有的流式和非流式替代方案。

跨模态性能优越

在所有模态上都表现出卓越的性能，与类似规模的单模态模型相比具有竞争优势。

先进的量化方法

采用超越IMatrix的量化方法，通过层提升技术提高低比特量化和MOE模型的精度。

模型能力

文本生成

图像理解

语音识别

语音合成

视频分析

多模态数据整合

实时流式处理

跨模态任务执行

使用案例

智能助手

多模态对话助手

支持通过文本、语音、图像等多种方式与用户交互，提供自然流畅的对话体验。

在OmniBench基准测试中表现优异，超越多个同类模型。

内容分析

视频内容理解

分析视频内容并生成描述或回答相关问题。

在MVBench等视频理解任务中表现良好。

语音处理

语音转文字

高精度语音识别，支持多种语言和方言。

在Librispeech、Common Voice等数据集上达到接近专业ASR模型的水平。

语音指令执行

理解并执行语音指令，效果与文本输入相当。

在MMLU和GSM8K等基准测试中表现优异。

🚀 Qwen2.5-Omni-3B GGUF模型

Qwen2.5-Omni-3B GGUF模型是一种多功能的模型，具备处理多种模态数据的能力，可用于文本、图像、音频和视频等多种数据的感知与处理，能为用户提供高效且准确的信息处理和响应。

🚀 快速开始

本项目主要围绕Qwen2.5-Omni-3B GGUF模型展开，下面将为你介绍该模型的生成细节、量化方法以及如何选择合适的模型格式。

✨ 主要特性

模型生成细节

此模型使用 llama.cpp 在提交版本 7f4fbe51 时生成。

超越IMatrix的量化方法

正在测试一种新的量化方法，该方法使用规则将重要层的量化提升到标准IMatrix之上。标准的IMatrix在低比特量化和MOE模型中表现不佳，因此使用 llama.cpp --tensor-type 来提升选定层的量化。详情见使用llama.cpp进行层提升。这种方法虽然会使模型文件变大，但能提高给定模型大小下的精度。

选择合适的模型格式

选择正确的模型格式取决于你的 硬件能力 和 内存限制。以下是不同模型格式的介绍：

BF16（Brain Float 16）：若硬件支持BF16加速，推荐使用。这是一种16位浮点格式，专为 更快的计算 设计，同时保留良好的精度。与FP32具有 相似的动态范围，但 内存使用更低。适用于 高性能推理，且与FP32相比，内存占用更小。
- 适用场景：硬件具有原生 BF16支持（如较新的GPU、TPU）；希望在节省内存的同时获得 更高的精度；计划将模型重新量化为其他格式。
- 避免场景：硬件 不支持BF16（可能会回退到FP32并运行较慢）；需要与缺乏BF16优化的旧设备兼容。
F16（Float 16）：比BF16更广泛支持。这是一种16位浮点格式，具有 高精度，但取值范围比BF16小。适用于大多数支持 FP16加速 的设备（包括许多GPU和一些CPU）。数值精度略低于BF16，但通常足以用于推理。
- 适用场景：硬件支持 FP16 但 不支持BF16；需要在 速度、内存使用和准确性 之间取得平衡；在 GPU 或其他针对FP16计算优化的设备上运行。
- 避免场景：设备缺乏 原生FP16支持（可能运行比预期慢）；存在内存限制。
混合精度模型（如 bf16_q8_0、f16_q4_K）：结合了全精度和量化的优点。这些格式选择性地 量化非关键层，同时保持 关键层的全精度（如注意力和输出层）。
- 适用场景：需要比仅量化模型 更高的准确性，但无法承受在所有地方使用全BF16/F16；设备支持 混合精度推理；希望在受限硬件上为生产级模型 优化权衡。
- 避免场景：目标设备 不支持混合或全精度加速；在 超严格的内存限制 下运行（此时应使用全量化格式）。
量化模型（Q4_K、Q6_K、Q8等）：适用于CPU和低VRAM推理。量化可在尽可能保持准确性的同时减小模型大小和内存使用。
- 低比特模型（Q4_K）：最适合 最小化内存使用，但可能精度较低。
- 高比特模型（Q6_K、Q8_0）：准确性更好，但需要更多内存。
- 适用场景：在 CPU 上运行推理并需要优化模型；设备具有 低VRAM 且无法加载全精度模型；希望在保持合理准确性的同时减少 内存占用。
- 避免场景：需要 最高准确性（全精度模型更适合）；硬件有足够的VRAM用于更高精度的格式（BF16/F16）。
极低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）：这些模型针对 非常高的内存效率 进行了优化，适用于 低功耗设备 或 大规模部署，其中内存是关键限制因素。
- IQ3_XS：超低位量化（3位），具有 非常高的内存效率。适用于 超低内存设备，即使Q4_K也太大的情况。但与高比特量化相比，准确性较低。
- IQ3_S：小块大小，实现 最大内存效率。适用于 低内存设备，当IQ3_XS过于激进时使用。
- IQ3_M：中等块大小，比IQ3_S 准确性更好。适用于 低内存设备，当IQ3_S限制过多时使用。
- Q4_K：4位量化，具有 逐块优化 以提高准确性。适用于 低内存设备，当Q6_K太大时使用。
- Q4_0：纯4位量化，针对 ARM设备 进行了优化。适用于 基于ARM的设备 或 低内存环境。
超低比特量化（IQ1_S、IQ1_M、IQ2_S、IQ2_M、IQ2_XS、IQ2_XSS）：超低位量化（1 - 2位），具有 极高的内存效率。适用于必须将模型装入非常受限内存的情况，但准确性非常低，使用前请充分测试。

模型格式选择总结表

属性	详情
模型格式	BF16、F16、Q4_K、Q6_K、Q8_0、IQ3_XS、IQ3_S、IQ3_M、Q4_0、超低比特（IQ1/2_*）、混合（如 `bf16_q8_0`）
精度	非常高、高、中低、中、高、低、低、低 - 中、低、非常低、中 - 高
内存使用	高、高、低、中等、中等、非常低、非常低、低、低、极低、中等
设备要求	支持BF16的GPU/CPU、支持FP16的GPU/CPU、CPU或低VRAM设备、有更多内存的CPU、有中等VRAM的GPU/CPU、超低内存设备、低内存设备、低内存设备、基于ARM/嵌入式设备、微小边缘/嵌入式设备、支持混合精度的硬件
最佳用例	高速推理且内存减少、BF16不可用时的推理、内存受限的推理、量化时更好的准确性、量化模型中最高的准确性、最大内存效率，低准确性、比IQ3_XS更实用、比IQ3_S准确性更好、Llama.cpp自动为ARM推理优化、将模型装入极紧的内存，低准确性、平衡性能和内存，关键层接近FP准确性

Qwen2.5-Omni概述

Qwen2.5-Omni是一个端到端的多模态模型，旨在感知多种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。

关键特性

全功能和新颖架构：提出了Thinker - Talker架构，这是一个端到端的多模态模型，能够感知多种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。还提出了一种新颖的位置嵌入，名为TMRoPE（时间对齐的多模态RoPE），用于同步视频输入和音频的时间戳。
实时语音和视频聊天：架构设计用于完全实时交互，支持分块输入和即时输出。
自然而强大的语音生成：在语音生成方面超越了许多现有的流式和非流式替代方案，表现出卓越的鲁棒性和自然度。
跨模态的强大性能：与类似规模的单模态模型相比，在所有模态上都表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似规模的Qwen2 - Audio，并达到了与Qwen2.5 - VL - 7B相当的性能。
出色的端到端语音指令遵循：Qwen2.5-Omni在端到端语音指令遵循方面的表现与其在文本输入时的效果相当，如MMLU和GSM8K等基准测试所示。

模型架构

性能

对Qwen2.5-Omni进行了全面评估，与类似规模的单模态模型和闭源模型（如Qwen2.5 - VL - 7B、Qwen2 - Audio和Gemini - 1.5 - pro）相比，它在所有模态上都表现出强大的性能。在需要整合多种模态的任务中，如OmniBench，Qwen2.5-Omni达到了最先进的性能。此外，在单模态任务中，它在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）和语音生成（Seed - tts - eval和主观自然度）等方面表现出色。

性能图表

多模态 -> 文本

数据集	模型	性能
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	Gemini - 1.5 - Pro	42.67%\|42.26%\|46.23%\|42.91%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	MIO - Instruct	36.96%\|33.58%\|11.32%\|33.80%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	AnyGPT (7B)	17.77%\|20.75%\|13.21%\|18.04%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	video - SALMONN	34.11%\|31.70%\|56.60%\|35.64%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	UnifiedIO2 - xlarge	39.56%\|36.98%\|29.25%\|38.00%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	UnifiedIO2 - xxlarge	34.24%\|36.98%\|24.53%\|33.98%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	MiniCPM - o	-
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	Baichuan - Omni - 1.5	-
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	Qwen2.5 - Omni - 3B	52.14%\|52.08%\|52.83%\|52.19%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	Qwen2.5 - Omni - 7B	55.25%\|60.00%\|52.83%\|56.13%

音频 -> 文本

数据集	模型	性能
语音识别（ASR）
Librispeech dev - clean \| dev other \| test - clean \| test - other	SALMONN	-
Librispeech dev - clean \| dev other \| test - clean \| test - other	SpeechVerse	-
Librispeech dev - clean \| dev other \| test - clean \| test - other	Whisper - large - v3	-
Librispeech dev - clean \| dev other \| test - clean \| test - other	Llama - 3 - 8B	-
Librispeech dev - clean \| dev other \| test - clean \| test - other	Llama - 3 - 70B	-
Librispeech dev - clean \| dev other \| test - clean \| test - other	Seed - ASR - Multilingual	-
Librispeech dev - clean \| dev other \| test - clean \| test - other	MiniCPM - o	-
Librispeech dev - clean \| dev other \| test - clean \| test - other	MinMo	-
Librispeech dev - clean \| dev other \| test - clean \| test - other	Qwen - Audio	1.8
Librispeech dev - clean \| dev other \| test - clean \| test - other	Qwen2 - Audio	1.3
Librispeech dev - clean \| dev other \| test - clean \| test - other	Qwen2.5 - Omni - 3B	2.0
Librispeech dev - clean \| dev other \| test - clean \| test - other	Qwen2.5 - Omni - 7B	1.6
Common Voice 15 en \| zh \| yue \| fr	Whisper - large - v3	9.3
Common Voice 15 en \| zh \| yue \| fr	MinMo	7.9
Common Voice 15 en \| zh \| yue \| fr	Qwen2 - Audio	8.6
Common Voice 15 en \| zh \| yue \| fr	Qwen2.5 - Omni - 3B	9.1
Common Voice 15 en \| zh \| yue \| fr	Qwen2.5 - Omni - 7B	7.6
Fleurs zh \| en	Whisper - large - v3	7.7
Fleurs zh \| en	Seed - ASR - Multilingual	-
Fleurs zh \| en	Megrez - 3B - Omni	10.8
Fleurs zh \| en	MiniCPM - o	4.4
Fleurs zh \| en	MinMo	3.0
Fleurs zh \| en	Qwen2 - Audio	7.5
Fleurs zh \| en	Qwen2.5 - Omni - 3B	3.2
Fleurs zh \| en	Qwen2.5 - Omni - 7B	3.0
Wenetspeech test - net \| test - meeting	Seed - ASR - Chinese	4.7\|5.7
Wenetspeech test - net \| test - meeting	Megrez - 3B - Omni	-
Wenetspeech test - net \| test - meeting	MiniCPM - o	6.9
Wenetspeech test - net \| test - meeting	MinMo	6.8
Wenetspeech test - net \| test - meeting	Qwen2.5 - Omni - 3B	6.3
Wenetspeech test - net \| test - meeting	Qwen2.5 - Omni - 7B	5.9
Voxpopuli - V1.0 - en	Llama - 3 - 8B	6.2
Voxpopuli - V1.0 - en	Llama - 3 - 70B	5.7
Voxpopuli - V1.0 - en	Qwen2.5 - Omni - 3B	6.6
Voxpopuli - V1.0 - en	Qwen2.5 - Omni - 7B	5.8
语音到文本翻译（S2TT）
CoVoST2 en - de \| de - en \| en - zh \| zh - en	SALMONN	18.6
CoVoST2 en - de \| de - en \| en - zh \| zh - en	SpeechLLaMA	-
CoVoST2 en - de \| de - en \| en - zh \| zh - en	BLSP	14.1
CoVoST2 en - de \| de - en \| en - zh \| zh - en	MiniCPM - o	-
CoVoST2 en - de \| de - en \| en - zh \| zh - en	MinMo	-
CoVoST2 en - de \| de - en \| en - zh \| zh - en	Qwen - Audio	25.1
CoVoST2 en - de \| de - en \| en - zh \| zh - en	Qwen2 - Audio	29.9
CoVoST2 en - de \| de - en \| en - zh \| zh - en	Qwen2.5 - Omni - 3B	28.3
CoVoST2 en - de \| de - en \| en - zh \| zh - en	Qwen2.5 - Omni - 7B	30.2
语音情感识别（SER）
Meld	WavLM - large	0.542
Meld	MiniCPM - o	0.524
Meld	Qwen - Audio	0.557
Meld	Qwen2 - Audio	0.553
Meld	Qwen2.5 - Omni - 3B	0.558
Meld	Qwen2.5 - Omni - 7B	0.570
语音声音分类（VSC）
VocalSound	CLAP	0.495
VocalSound	Pengi	0.604
VocalSound	Qwen - Audio	0.929
VocalSound	Qwen2 - Audio	0.939
VocalSound	Qwen2.5 - Omni - 3B	0.936
VocalSound	Qwen2.5 - Omni - 7B	0.939
音乐
GiantSteps Tempo	Llark - 7B	0.86
GiantSteps Tempo	Qwen2.5 - Omni - 3B	0.88

📄 许可证

本项目采用 qwen-research 许可证。

Apache-2.0

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

Nunchaku Flux.1 Dev Colossus

其他

Colossus Project Flux 的 Nunchaku 量化版本，旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时，将性能损失降至最低。

图像生成英语

nunchaku-tech

235

Qwen2.5 VL 7B Abliterated Caption It GGUF

Apache-2.0

这是一个基于Qwen2.5-VL-7B模型的静态量化版本，专注于图像描述生成任务，支持多种语言。

olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

智启未来，您的人工智能解决方案智库

数据集	模型	性能
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	Gemini - 1.5 - Pro	42.67%\|42.26%\|46.23%\|42.91%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	MIO - Instruct	36.96%\|33.58%\|11.32%\|33.80%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	AnyGPT (7B)	17.77%\|20.75%\|13.21%\|18.04%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	video - SALMONN	34.11%\|31.70%\|56.60%\|35.64%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	UnifiedIO2 - xlarge	39.56%\|36.98%\|29.25%\|38.00%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	UnifiedIO2 - xxlarge	34.24%\|36.98%\|24.53%\|33.98%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	MiniCPM - o	-
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	Baichuan - Omni - 1.5	-
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	Qwen2.5 - Omni - 3B	52.14%\|52.08%\|52.83%\|52.19%
OmniBench 语音 \| 声音事件 \| 音乐 \| 平均	Qwen2.5 - Omni - 7B	55.25%\|60.00%\|52.83%\|56.13%

Qwen2.5 Omni 3B GGUF

模型介绍

内容详情

替代品

模型简介

模型特点

模型能力

使用案例

🚀 Qwen2.5-Omni-3B GGUF模型

🚀 快速开始

✨ 主要特性

模型生成细节

超越IMatrix的量化方法

选择合适的模型格式

模型格式选择总结表

Qwen2.5-Omni概述

关键特性

模型架构

性能

📄 许可证

精选推荐AI模型