模型简介
模型特点
模型能力
使用案例
license: other license_name: apache-2.0 license_link: https://huggingface.co/Qwen/Qwen2.5-Omni-7B/blob/main/LICENSE language:
- en tags:
- multimodal library_name: transformers pipeline_tag: any-to-any
Qwen2.5-Omni
概述
简介
Qwen2.5-Omni 是一款端到端多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。
关键特性
-
全模态与创新架构:我们提出了 Thinker-Talker 架构,这是一种端到端多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。我们提出了一种新颖的位置嵌入方法,称为 TMRoPE(时间对齐多模态 RoPE),以同步视频输入与音频的时间戳。
-
实时语音与视频聊天:专为完全实时交互设计的架构,支持分块输入和即时输出。
-
自然且鲁棒的语音生成:超越了许多现有的流式和非流式替代方案,在语音生成中展现出卓越的鲁棒性和自然度。
-
跨模态的强劲性能:在与类似规模的单模态模型对比时,Qwen2.5-Omni 在所有模态上均表现出色。Qwen2.5-Omni 在音频能力上超越了类似规模的 Qwen2-Audio,并在性能上与 Qwen2.5-VL-7B 相当。
-
出色的端到端语音指令跟随:Qwen2.5-Omni 在端到端语音指令跟随方面的表现与其在文本输入上的效果相当,这一点在 MMLU 和 GSM8K 等基准测试中得到了验证。
模型架构
性能表现
我们对 Qwen2.5-Omni 进行了全面评估,结果显示其在所有模态上均表现出色,与类似规模的单模态模型及闭源模型如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 相比具有优势。在需要多模态集成的任务中,如 OmniBench,Qwen2.5-Omni 达到了最先进的性能。此外,在单模态任务中,它在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)和语音生成(Seed-tts-eval 和主观自然度)等领域表现出色。
多模态 -> 文本
数据集
模型
性能
OmniBench
语音 | 声音事件 | 音乐 | 平均Gemini-1.5-Pro
42.67%|42.26%|46.23%|42.91%
MIO-Instruct
36.96%|33.58%|11.32%|33.80%
AnyGPT (7B)
17.77%|20.75%|13.21%|18.04%
video-SALMONN
34.11%|31.70%|56.60%|35.64%
UnifiedIO2-xlarge
39.56%|36.98%|29.25%|38.00%
UnifiedIO2-xxlarge
34.24%|36.98%|24.53%|33.98%
MiniCPM-o
-|-|-|40.50%
Baichuan-Omni-1.5
-|-|-|42.90%
Qwen2.5-Omni-3B
52.14%|52.08%|52.83%|52.19%
Qwen2.5-Omni-7B
55.25%|60.00%|52.83%|56.13%
音频 -> 文本