U

Ultravox V0 4 Llama 3 1 70b

由 fixie-ai 开发
Ultravox 是一个多模态语音大语言模型,基于预训练的 Llama3.1-70B-Instruct 和 Whisper-medium 主干构建,能够同时接收语音和文本作为输入。
下载量 79
发布时间 : 9/10/2024
模型介绍
内容详情
替代品

模型简介

Ultravox 是一个多模态模型,能够同时接收语音和文本作为输入(例如,文本系统提示和语音用户消息)。模型的输入是一个包含特殊伪标记 `<|audio|>` 的文本提示,模型处理器会将该标记替换为输入音频生成的嵌入。

模型特点

多模态输入
能够同时接收语音和文本作为输入,适用于多种交互场景。
高性能语音识别
基于 Whisper-medium 编码器,提供高质量的语音识别能力。
知识蒸馏
采用知识蒸馏损失函数,Ultravox 试图匹配基于文本的 Llama 主干的逻辑输出。

模型能力

语音识别
文本生成
多模态交互
语音到语音翻译
语音音频分析

使用案例

语音代理
语音助手
作为语音代理使用,回答用户的问题。
翻译
语音到语音翻译
支持多种语言的语音翻译任务。
英译德 BLEU 30.30,西译英 BLEU 39.55
语音分析
语音音频分析
分析语音内容,提取关键信息。