U

Ultravox V0 6 Gemma 3 27b

由 fixie-ai 开发
Ultravox是一个多模态语音大语言模型,能够同时处理语音和文本输入,为语音交互场景提供强大支持。
下载量 641
发布时间 : 6/20/2025

模型简介

Ultravox围绕预训练的大语言模型(如Llama、Gemma、Qwen等)和语音编码器构建,能够理解语音输入并进行文本生成,适用于语音代理、语音翻译等场景。

模型特点

多模态输入支持
支持语音和文本作为输入,通过特殊的<|audio|>伪标记处理语音输入
语言性能优化
v0.6系列在印地语语音数据上进行训练,显著提升了印地语的语音理解性能
抗噪能力增强
在噪声数据集上训练,提高了对噪声的鲁棒性,能够识别嘈杂音频
未来语音输出支持
计划扩展词表以支持生成语义和声学音频标记,实现语音输出功能

模型能力

语音理解
文本生成
语音到语音翻译
语音音频分析
噪声识别

使用案例

语音交互
语音代理
作为能够理解语音输入的智能代理
语言翻译
语音到语音翻译
将一种语言的语音翻译成另一种语言的文本
在covost2数据集上表现良好,如英语到阿拉伯语BLEU 12.94
音频分析
噪声检测
识别输入音频是否包含清晰语音或仅为噪声
在musan_noise数据集上召回率达97.45%
AIbase
智启未来,您的人工智能解决方案智库
简体中文