U

Ultravox V0 5 Llama 3 2 1b

由 fixie-ai 开发
Ultravox是一个基于Llama3.2-1B和Whisper-large-v3构建的多模态语音大语言模型,能够同时处理语音和文本输入。
下载量 167.25k
发布时间 : 2/6/2025
模型介绍
内容详情
替代品

模型简介

Ultravox是一个多模态模型,能够接收语音和文本作为输入,并生成文本输出。它结合了语音理解和语言生成能力,适用于语音代理、语音翻译等任务。

模型特点

多模态输入
能够同时接收语音和文本作为输入,处理复杂的多模态任务。
多语言支持
支持超过40种语言,适用于全球化的应用场景。
知识蒸馏训练
通过知识蒸馏损失函数训练,使模型能够匹配基于文本的Llama主干的逻辑输出。

模型能力

语音理解
文本生成
语音到文本转换
多语言处理
语音代理

使用案例

语音交互
语音代理
作为能够理解和响应语音输入的智能代理
语言翻译
语音到语音翻译
将一种语言的语音输入转换为另一种语言的文本或语音输出
在covost2数据集上表现良好,如en_de翻译BLEU得分14.21
语音分析
语音内容理解
分析语音内容并提取关键信息
在big bench audio任务上得分39.14