U

Ultravox V0 4

由 fixie-ai 开发
Ultravox 是一款基于 Llama3.1-8B-Instruct 和 Whisper-medium 的多模态语音大语言模型,能够同时处理语音和文本输入。
下载量 1,851
发布时间 : 8/23/2024
模型介绍
内容详情
替代品

模型简介

Ultravox 是一款多模态模型,能够接收语音和文本输入,并生成文本输出。它结合了语音识别和大语言模型的能力,适用于语音代理、语音到语音翻译等任务。

模型特点

多模态输入
能够同时接收语音和文本输入,并通过特殊伪标记 <|audio|> 处理音频嵌入向量。
语音代理
可以用作语音代理,理解和生成语音内容。
知识蒸馏
采用知识蒸馏损失函数,使模型匹配基于文本的 Llama 主干网络的逻辑输出。

模型能力

语音识别
文本生成
语音到语音翻译
口语音频分析

使用案例

语音代理
语音助手
作为语音助手回答用户问题。
翻译
语音到语音翻译
将一种语言的语音翻译成另一种语言的文本或语音。
英德翻译 BLEU 25.47,西英翻译 BLEU 37.11
语音识别
自动语音识别
将语音内容转换为文本。
LibriSpeech 干净测试集 WER 4.45