U

Ultravox V0 6 Llama 3 3 70b

由 fixie-ai 开发
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够处理语音和文本输入。
下载量 196
发布时间 : 5/27/2025

模型简介

Ultravox是一个能够聆听和理解语音的大语言模型,可用于语音代理、语音到语音翻译、语音音频分析等任务。

模型特点

多模态输入
可以同时处理语音和文本输入,支持语音和文本的混合交互。
印地语优化
在扩展的印地语语音数据上进行训练,显著提高了印地语的语音理解性能。
噪声鲁棒性
在噪声数据集上训练,能够更好地处理嘈杂音频,并在无法识别时输出特殊标记。
未来语音输出
计划扩展词表以支持生成语义和声学音频令牌,实现语音输出功能。

模型能力

语音理解
语音翻译
语音音频分析
噪声检测
多语言支持

使用案例

语音交互
语音代理
作为能够理解语音输入的智能代理,进行自然语言交互。
语音翻译
多语言语音翻译
将一种语言的语音翻译成另一种语言的文本输出。
在covost2数据集上取得12.94-42.41 BLEU分数
音频分析
噪声检测
检测输入音频是否包含有效语音或仅为噪声。
在musan_noise数据集上达到97.45%召回率
AIbase
智启未来,您的人工智能解决方案智库
简体中文