Qwen2.5-Omni-7B-AWQ开源多模态模型 - 感知多形式内容并实现语音文本回应

首页

Qwen2.5 Omni 7B AWQ

由 Qwen 开发

Qwen2.5-Omni是一款端到端多模态模型，能够感知包括文本、图像、音频和视频在内的多种模态，同时以流式方式生成文本和自然语音响应。

多模态融合

Transformers

英语开源协议:其他 #端到端多模态 #实时语音生成 #低显存优化

下载量 77

发布时间 : 5/14/2025

模型简介

Qwen2.5-Omni是一款支持全模态感知和生成的多模态模型，具备文本、图像、音频和视频处理能力，并能实时生成文本和语音响应。

模型特点

全模态感知与生成

支持文本、图像、音频和视频多种模态的感知和生成

实时语音与视频聊天

专为完全实时交互设计，支持分块输入和即时输出

自然语音生成

在语音生成方面展现出卓越的稳健性和自然度

跨模态强劲性能

在所有模态上均表现出色，音频能力超越同规模模型

端到端语音指令跟随

在端到端语音指令跟随方面的表现与文本输入相当

模型能力

文本生成

图像分析

语音识别

语音合成

视频理解

多模态交互

使用案例

智能助手

多模态对话

支持语音、图像和文本的多模态交互

提供自然流畅的对话体验

内容生成

语音合成

将文本转换为自然语音

生成高质量语音输出

🚀 Qwen2.5-Omni-7B-AWQ

Qwen2.5-Omni-7B-AWQ是一个端到端的多模态模型，能够感知文本、图像、音频和视频等多种模态信息，并以流式方式同时生成文本和自然语音响应。

🚀 快速开始

本模型卡片介绍了一系列旨在提升Qwen2.5-Omni-7B在GPU内存受限设备上可操作性的增强功能。主要优化包括：

使用AWQ对Thinker的权重进行4位量化，有效减少GPU显存使用。
改进推理管道，按需为每个模块加载模型权重，并在推理完成后将其卸载到CPU内存，防止显存峰值过高。
将token2wav模块转换为支持流式推理，避免预分配过多的GPU内存。
将ODE求解器从二阶（RK4）方法调整为一阶（Euler）方法，进一步降低计算开销。

这些改进旨在确保Qwen2.5-Omni在各种硬件配置（特别是GPU显存较低的设备，如RTX3080、4080、5070等）上高效运行。

以下是使用autoawq库调用Qwen2.5-Omni-7B-AWQ的简单示例：

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview
pip install accelerate
pip install autoawq==0.2.9

git clone https://github.com/QwenLM/Qwen2.5-Omni.git

cd Qwen2.5-Omni/low-VRAM-mode/

CUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_awq.py

我们提供了一个工具包，帮助你更方便地处理各种类型的音频和视觉输入，就像使用API一样。这包括base64编码、URL和交错的音频、图像和视频。你可以使用以下命令安装它，并确保你的系统已安装ffmpeg：

# 强烈建议使用 `[decord]` 特性以加快视频加载速度。
pip install qwen-omni-utils[decord] -U

如果你不使用Linux系统，可能无法从PyPI安装decord。在这种情况下，你可以使用pip install qwen-omni-utils -U，它将回退到使用torchvision进行视频处理。不过，你仍然可以从源代码安装decord，以便在加载视频时使用decord。

性能和GPU内存要求

以下两个表格展示了Qwen2.5-Omni-7B-AWQ和Qwen2.5-Omni-7B在特定评估基准上的性能比较和GPU内存消耗情况。数据表明，AWQ模型在保持相当性能的同时，将GPU内存需求降低了50%以上，使更多设备能够运行和体验高性能的Qwen2.5-Omni-7B模型。值得注意的是，由于量化技术和CPU卸载机制，AWQ变体的推理速度比原生Qwen2.5-Omni-7B模型略慢。

评估集	任务	指标	Qwen2.5-Omni-7B	Qwen2.5-Omni-7B-AWQ
LibriSpeech test-other	自动语音识别（ASR）	词错误率（WER） ⬇️	3.4	3.91
WenetSpeech test-net	自动语音识别（ASR）	词错误率（WER） ⬇️	5.9	6.31
Seed-TTS test-hard	文本转语音（TTS，说话人：Chelsie）	词错误率（WER） ⬇️	8.7	8.88
MMLU-Pro	文本到文本	准确率 ⬆️	47.0	45.66
OmniBench	语音到文本	准确率 ⬆️	56.13	54.64
VideoMME	多模态到文本	准确率 ⬆️	72.4	72.0

模型	精度	15秒视频	30秒视频	60秒视频
Qwen-Omni-7B	FP32	93.56 GB	不建议	不建议
Qwen-Omni-7B	BF16	31.11 GB	41.85 GB	60.19 GB
Qwen-Omni-7B	AWQ	11.77 GB	17.84 GB	30.31 GB

✨ 主要特性

全模态与新颖架构：我们提出了Thinker-Talker架构，这是一种端到端的多模态模型，旨在感知多种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。我们还提出了一种新颖的位置嵌入方法，名为TMRoPE（时间对齐多模态旋转位置编码），用于同步视频输入和音频的时间戳。
实时语音和视频聊天：该架构专为全实时交互设计，支持分块输入和即时输出。
自然且鲁棒的语音生成：超越了许多现有的流式和非流式模型，在语音生成方面表现出卓越的鲁棒性和自然度。
跨模态的强大性能：与同等规模的单模态模型相比，在所有模态上都表现出色。Qwen2.5-Omni在音频能力上优于同等规模的Qwen2-Audio，并且在性能上与Qwen2.5-VL-7B相当。
出色的端到端语音指令遵循能力：Qwen2.5-Omni在端到端语音指令遵循方面的表现与文本输入时的效果相当，这在MMLU和GSM8K等基准测试中得到了证明。

模型架构

📄 许可证

本项目采用Apache 2.0许可协议，详情请见许可证链接。

📚 引用

如果您在研究中发现我们的论文和代码很有用，请考虑给我们点个星 :star: 并引用我们的工作 :pencil: :)

@article{Qwen2.5-Omni,
  title={Qwen2.5-Omni Technical Report},
  author={Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin},
  journal={arXiv preprint arXiv:2503.20215},
  year={2025}
}