Q

Qwen2.5 Omni 7B GPTQ Int4

由 Qwen 开发
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
下载量 389
发布时间 : 5/14/2025
模型介绍
内容详情
替代品

模型简介

Qwen2.5-Omni 是一个专为实时交互设计的端到端多模态模型,支持文本、图像、音频和视频的感知与生成。

模型特点

全模态与新颖架构
支持文本、图像、音频和视频的感知与生成,采用 Thinker-Talker 架构和 TMRoPE 位置嵌入。
实时语音和视频聊天
专为完全实时交互设计,支持分块输入和即时输出。
自然且稳健的语音生成
在语音生成中表现出卓越的稳健性和自然性,超越了许多现有的流式和非流式替代方案。
跨模态的强劲性能
在所有模态上表现出卓越的性能,与类似规模的单模态模型相比具有竞争力。
端到端语音指令跟随
在端到端语音指令跟随方面表现出色,效果与文本输入相当。

模型能力

文本生成
图像分析
语音识别
语音合成
视频分析

使用案例

实时交互
实时语音聊天
支持实时语音输入和输出,适用于语音助手等应用。
自然且稳健的语音生成效果。
视频分析
支持视频内容的实时分析和响应。
在 VideoMME 基准测试中准确率达到 72.4。
语音处理
语音识别
支持高精度的语音转文本功能。
在 LibriSpeech test-other 数据集上 WER 为 3.4。
语音合成
支持自然语音的生成。
在 Seed-TTS test-hard 数据集上 WER 为 8.7。