Q

Qwen2.5 Omni 7B

由 Qwen 开发
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
下载量 206.20k
发布时间 : 3/22/2025
模型介绍
内容详情
替代品

模型简介

Qwen2.5-Omni 是一个多模态模型,支持文本、图像、音频和视频的输入和输出,专为实时交互设计,具有出色的跨模态性能和自然语音生成能力。

模型特点

全模态与新颖架构
采用 Thinker-Talker 架构,支持文本、图像、音频和视频的输入和输出,提出 TMRoPE(时间对齐的多模态 RoPE)方法同步视频与音频的时间戳。
实时语音和视频聊天
专为完全实时交互设计,支持分块输入和即时输出。
自然且稳健的语音生成
在语音生成方面展现出卓越的稳健性和自然度,超越许多现有的流式和非流式替代方案。
跨模态的强劲性能
在所有模态上均表现出色,性能与类似规模的单模态模型相当甚至超越。
端到端语音指令跟随
在端到端语音指令跟随方面的表现与文本输入相当,验证了其在复杂任务中的实用性。

模型能力

文本生成
图像分析
语音识别
语音合成
视频理解
多模态集成

使用案例

实时交互
实时语音聊天
支持流式语音输入和即时文本或语音响应,适用于实时对话场景。
自然且稳健的语音生成效果。
视频聊天
支持视频输入和实时分析,生成文本或语音响应。
同步视频与音频的时间戳,提升交互体验。
多模态任务
音频理解
支持语音识别、翻译和音频事件检测等任务。
在 Common Voice、Fleurs 等数据集上表现优异。
图像推理
支持图像内容理解和推理任务。
在 MMMU、MMStar 等基准测试中表现出色。