U

Ultravox V0 5 Llama 3 3 70b

由 fixie-ai 开发
Ultravox是基于Llama3.3-70B和Whisper构建的多模态语音大语言模型,支持语音和文本输入,适用于语音代理、翻译等场景。
下载量 3,817
发布时间 : 1/31/2025
模型介绍
内容详情
替代品

模型简介

Ultravox是多模态模型,可同时接收语音和文本输入,通过特殊伪标记实现语音嵌入融合,生成文本输出。未来版本计划支持语音生成。

模型特点

多模态输入支持
可同时处理语音和文本输入,通过特殊标记实现语音嵌入融合
多语言支持
支持40多种语言的语音和文本处理
高性能翻译
在多种语言对的语音翻译任务中表现优异
未来语音生成能力
计划未来版本支持生成语义和声学音频标记,实现语音输出

模型能力

语音理解
多语言语音识别
语音翻译
语音代理
语音分析
文本生成

使用案例

语音交互
语音助手
作为智能语音助手解答用户问题
自然流畅的对话体验
翻译服务
实时语音翻译
将一种语言的语音实时翻译为另一种语言的文本
在covost2测试集上取得20-49 BLEU分数
内容分析
语音内容分析
分析语音内容并生成摘要或关键信息