license: other
license_name: apache-2.0
license_link: https://huggingface.co/Qwen/Qwen2.5-Omni-7B-AWQ/blob/main/LICENSE
language:
- en
tags:
- multimodal
library_name: transformers
pipeline_tag: any-to-any
Qwen2.5-Omni-7B-AWQ
概述
简介
Qwen2.5-Omni是一款端到端多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。
主要特性
-
全模态与创新架构:我们提出了Thinker-Talker架构,这是一种端到端多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。我们提出了一种名为TMRoPE(时间对齐多模态RoPE)的新型位置嵌入,用于同步视频输入与音频的时间戳。
-
实时语音与视频聊天:专为完全实时交互设计的架构,支持分块输入和即时输出。
-
自然且稳健的语音生成:超越了许多现有的流式和非流式替代方案,在语音生成方面展现出卓越的稳健性和自然度。
-
跨模态的强劲性能:在与类似规模的单模态模型对比时,Qwen2.5-Omni在所有模态上均表现出色。其音频能力超越了同规模的Qwen2-Audio,并在视觉能力上与Qwen2.5-VL-7B相当。
-
卓越的端到端语音指令跟随:Qwen2.5-Omni在端到端语音指令跟随方面的表现与文本输入相当,这一点在MMLU和GSM8K等基准测试中得到了验证。
模型架构
快速开始
本模型卡介绍了一系列优化措施,旨在提升Qwen2.5-Omni-7B在GPU内存受限设备上的运行效率。关键优化包括:
-
使用AWQ对Thinker的权重进行4位量化,有效降低GPU显存占用。
-
优化推理流程,按需加载各模块的模型权重,并在推理完成后将其卸载至CPU内存,避免峰值显存占用过高。
-
将token2wav模块转换为支持流式推理,从而避免预分配过多GPU内存。
-
将ODE求解器从二阶(RK4)调整为一阶(Euler)方法,进一步减少计算开销。
这些改进旨在确保Qwen2.5-Omni在各类硬件配置(尤其是显存较低的RTX3080、4080、5070等设备)上均能高效运行。
以下是一个简单示例,展示如何使用autoawq
运行Qwen2.5-Omni-7B-AWQ:
pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview
pip install accelerate
pip install autoawq==0.2.9
git clone https://github.com/QwenLM/Qwen2.5-Omni.git
cd Qwen2.5-Omni/low-VRAM-mode/
CUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_awq.py
我们提供了一套工具包,帮助您像调用API一样便捷地处理各类音视频输入(包括base64、URL及交错的音频、图像和视频)。安装前请确保系统已安装ffmpeg
:
pip install qwen-omni-utils[decord] -U
若非Linux系统可能无法通过PyPI安装decord
,此时可使用pip install qwen-omni-utils -U
回退至torchvision处理视频。您仍可通过源码安装decord来启用视频加载加速。
性能与显存需求
以下两表对比了Qwen2.5-Omni-7B-AWQ与Qwen2.5-Omni-7B在特定评估集上的性能表现和显存消耗。数据显示,AWQ模型在保持相近性能的同时,显存需求降低50%以上,使得更多设备能够运行高性能的Qwen2.5-Omni-7B模型。值得注意的是,由于量化技术和CPU卸载机制,AWQ版本的推理速度略慢于原生模型。
评估集 |
任务 |
指标 |
Qwen2.5-Omni-7B |
Qwen2.5-Omni-7B-AWQ |
LibriSpeech test-other |
语音识别(ASR) |
WER ⬇️ |
3.4 |
3.91 |
WenetSpeech test-net |
语音识别(ASR) |
WER ⬇️ |
5.9 |
6.31 |
Seed-TTS test-hard |
语音合成(TTS) |
WER ⬇️ |
8.7 |
8.88 |
MMLU-Pro |
文本→文本 |
准确率 ⬆️ |
47.0 |
45.66 |
OmniBench |
语音→文本 |
准确率 ⬆️ |
56.13 |
54.64 |
VideoMME |
多模态→文本 |
准确率 ⬆️ |
72.4 |
72.0 |
模型 |
精度 |
15秒视频 |
30秒视频 |
60秒视频 |
Qwen-Omni-7B |
FP32 |
93.56 GB |
不推荐 |
不推荐 |
Qwen-Omni-7B |
BF16 |
31.11 GB |
41.85 GB |
60.19 GB |
Qwen-Omni-7B |
AWQ |
11.77 GB |
17.84 GB |
30.31 GB |
引用
如果您觉得我们的论文和代码对研究有所帮助,请考虑给予星标 :star: 和引用 :pencil: :)
@article{Qwen2.5-Omni,
title={Qwen2.5-Omni技术报告},
author={徐进, 郭志芳, 何金正, 胡航瑞, 何婷, 白帅, 陈克勤, 王佳凌, 范阳, 党凯, 张斌, 王雄, 褚云飞, 林俊洋},
journal={arXiv预印本 arXiv:2503.20215},
year={2025}
}