U

Ultravox V0 5 Llama 3 1 8b

由 fixie-ai 开发
Ultravox是一款基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型,能够同时处理语音和文本输入。
下载量 17.86k
发布时间 : 2/5/2025
模型介绍
内容详情
替代品

模型简介

Ultravox是一款多模态模型,能够同时接收语音和文本输入,可作为语音代理或用于语音到语音翻译、口语音频分析等任务。

模型特点

多模态输入
能够同时处理语音和文本输入,通过特殊伪标记<|audio|>将音频嵌入向量与文本融合。
语音理解能力
具备听觉和理解语音的能力,可作为语音代理使用。
知识蒸馏训练
采用知识蒸馏损失函数,使模型尽可能匹配基于文本的Llama主干网络的逻辑输出。

模型能力

语音理解
语音到语音翻译
口语音频分析
多模态输入处理

使用案例

语音代理
语音助手
作为语音助手回答用户问题
语音翻译
多语言语音翻译
支持多种语言的语音到语音翻译
在covost2数据集上取得12.99(英译阿)至42.13(俄译英)的BLEU分数