Q

Qwen2.5 Omni 3B GGUF

由 NexaAI 开发
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
下载量 254
发布时间 : 7/1/2025

模型简介

这是一个支持多模态交互的AI模型,能够处理文本、图像、音频和视频输入,并生成相应的文本和语音输出。

模型特点

全模态支持
能够同时处理文本、图像、音频和视频输入
流式生成
支持实时流式生成文本和自然语音响应
新颖架构
采用Thinker-Talker架构和TMRoPE位置编码
高性能语音生成
在语音生成方面超越许多现有方案,具有卓越的鲁棒性和自然度

模型能力

文本理解与生成
图像分析
语音识别
语音合成
视频理解
多模态推理
实时交互

使用案例

智能助手
实时语音对话
支持自然流畅的语音对话交互
在VoiceBench测试中表现优异
内容理解
多模态内容分析
同时分析图像、视频和音频内容
在MMAU音频理解测试中达到63.3%准确率
翻译服务
语音翻译
实现多种语言间的语音翻译
在CoVoST2测试中英语-德语翻译达到30.2 BLEU分数
AIbase
智启未来,您的人工智能解决方案智库
简体中文