U

Ultravox V0 6 Qwen 3 32b

由 fixie-ai 开发
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
下载量 1,240
发布时间 : 6/20/2025

模型简介

Ultravox是一个围绕预训练大语言模型(如Llama、Gemma、Qwen等)和语音编码器构建的多模态模型,能够同时处理语音和文本输入,适用于语音代理、语音翻译和语音分析等任务。

模型特点

多模态输入
可以同时处理语音和文本输入,支持复杂的交互场景。
多语言支持
支持超过40种语言,包括印地语、中文、西班牙语等。
噪声鲁棒性
在噪声数据集上训练,能够识别嘈杂环境中的语音并输出特殊标记。
未来语音输出
计划扩展支持生成语义和声学音频令牌,以实现语音输出功能。

模型能力

语音理解
语音到文本转换
多语言语音翻译
噪声环境语音识别
语音代理交互

使用案例

语音交互
语音代理
作为能够理解和响应语音输入的智能代理。
实现自然的人机语音交互
语音翻译
多语言语音翻译
将一种语言的语音实时翻译为另一种语言的文本。
在covost2测试集上达到12.94-49.29 BLEU分数
语音分析
语音内容分析
分析语音内容并提取关键信息。
在big bench audio测试集上达到69.70%准确率
AIbase
智启未来,您的人工智能解决方案智库
简体中文