模型简介
模型特点
模型能力
使用案例
license: other license_name: qwen-research license_link: LICENSE language:
- en tags:
- multimodal library_name: transformers pipeline_tag: any-to-any
Qwen2.5-Omni
概述
简介
Qwen2.5-Omni是一个端到端的多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。
主要特性
-
全模态与创新架构:我们提出了Thinker-Talker架构,这是一个端到端的多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。我们提出了一种新颖的位置嵌入方法,称为TMRoPE(时间对齐的多模态RoPE),以同步视频输入与音频的时间戳。
-
实时语音与视频聊天:专为完全实时交互设计的架构,支持分块输入和即时输出。
-
自然且稳健的语音生成:超越了许多现有的流式和非流式替代方案,在语音生成中展现出卓越的稳健性和自然度。
-
跨模态的强劲表现:在与类似规模的单模态模型对比时,Qwen2.5-Omni在所有模态上均表现出色。Qwen2.5-Omni在音频能力上超越了类似规模的Qwen2-Audio,并在性能上与Qwen2.5-VL-7B相当。
-
卓越的端到端语音指令跟随:Qwen2.5-Omni在端到端语音指令跟随方面的表现与其在文本输入上的效果相当,这一点在MMLU和GSM8K等基准测试中得到了验证。
模型架构
性能表现
我们对Qwen2.5-Omni进行了全面评估,结果显示其在所有模态上均表现出色,与类似规模的单模态模型及闭源模型如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro相比具有优势。在需要多模态整合的任务中,如OmniBench,Qwen2.5-Omni达到了最先进的性能。此外,在单模态任务中,它在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)和语音生成(Seed-tts-eval和主观自然度)等领域表现优异。
多模态 -> 文本
数据集
模型
性能
OmniBench
语音 | 声音事件 | 音乐 | 平均Gemini-1.5-Pro
42.67%|42.26%|46.23%|42.91%
MIO-Instruct
36.96%|33.58%|11.32%|33.80%
AnyGPT (7B)
17.77%|20.75%|13.21%|18.04%
video-SALMONN
34.11%|31.70%|56.60%|35.64%
UnifiedIO2-xlarge
39.56%|36.98%|29.25%|38.00%
UnifiedIO2-xxlarge
34.24%|36.98%|24.53%|33.98%
MiniCPM-o
-|-|-|40.50%
Baichuan-Omni-1.5
-|-|-|42.90%
Qwen2.5-Omni-3B
52.14%|52.08%|52.83%|52.19%
Qwen2.5-Omni-7B
55.25%|60.00%|52.83%|56.13%
音频 -> 文本