Q

Qwen2.5 Omni 3B

由 Qwen 开发
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。
下载量 48.07k
发布时间 : 4/30/2025
模型介绍
内容详情
替代品

模型简介

Qwen2.5-Omni是一款创新的多模态模型,采用Thinker-Talker架构设计,支持实时音视频交互和自然流畅的语音生成,在跨模态任务中表现优异。

模型特点

创新架构设计
提出Thinker-Talker架构,实现端到端多模态感知与生成。创新性地引入TMRoPE(时间对齐多模态旋转位置编码),确保视频与音频输入的时间戳同步。
实时音视频交互
支持分块输入与即时输出的全实时交互架构。
自然流畅的语音生成
在语音生成的自然度和鲁棒性上超越现有流式/非流式方案。
跨模态强劲表现
在同等规模单模态模型对比中全面领先。音频能力超越同尺寸Qwen2-Audio,视觉表现媲美Qwen2.5-VL-7B。
卓越的端到端语音指令跟随
在MMLU、GSM8K等基准测试中,语音指令跟随能力达到文本输入同等效果。

模型能力

文本理解与生成
图像理解与分析
音频理解与生成
视频理解与分析
多模态融合处理
实时流式交互

使用案例

智能助手
多模态对话系统
支持文本、语音、图像和视频的多模态交互
提供更自然流畅的人机交互体验
内容创作
多媒体内容生成
根据多模态输入生成连贯的文本和语音输出
提升内容创作的效率和质量
教育
多模态学习助手
通过语音、图像和视频等多种方式辅助学习
提供更丰富的学习体验