U

Ultravox V0 4 1 Llama 3 1 70b

由 fixie-ai 开发
Ultravox 是一个多模态语音大语言模型,基于预训练的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主干构建,能够同时接收语音和文本作为输入。
下载量 204
发布时间 : 11/5/2024
模型介绍
内容详情
替代品

模型简介

Ultravox 是一个多模态模型,可以同时接收语音和文本作为输入(例如,文本系统提示和语音用户消息)。模型的输入是一个包含特殊伪标记的文本提示,模型处理器会将该标记替换为输入音频的嵌入表示。

模型特点

多模态输入
可以同时接收语音和文本作为输入,处理包含音频嵌入的文本提示。
多语言支持
支持包括中文、英语、西班牙语等15种语言的语音和文本处理。
知识蒸馏训练
通过知识蒸馏进行监督式语音指令微调,匹配基于文本的 Llama 主干的逻辑输出。

模型能力

语音识别
文本生成
多语言翻译
语音音频分析

使用案例

语音代理
语音助手
作为语音代理使用,回答用户问题。
语音翻译
语音到语音翻译
支持多种语言之间的语音翻译。
在英语-阿拉伯语翻译中达到19.64 BLEU分数