U

Ultravox V0 4 Llama 3 1 70b

由 fixie-ai 开发
Ultravox 是一个多模态语音大语言模型,基于预训练的 Llama3.1-70B-Instruct 和 Whisper-medium 主干构建,能够同时接收语音和文本作为输入。
下载量 79
发布时间 : 9/10/2024

模型简介

Ultravox 是一个多模态模型,能够同时接收语音和文本作为输入(例如,文本系统提示和语音用户消息)。模型的输入是一个包含特殊伪标记 `<|audio|>` 的文本提示,模型处理器会将该标记替换为输入音频生成的嵌入。

模型特点

多模态输入
能够同时接收语音和文本作为输入,适用于多种交互场景。
高性能语音识别
基于 Whisper-medium 编码器,提供高质量的语音识别能力。
知识蒸馏
采用知识蒸馏损失函数,Ultravox 试图匹配基于文本的 Llama 主干的逻辑输出。

模型能力

语音识别
文本生成
多模态交互
语音到语音翻译
语音音频分析

使用案例

语音代理
语音助手
作为语音代理使用,回答用户的问题。
翻译
语音到语音翻译
支持多种语言的语音翻译任务。
英译德 BLEU 30.30,西译英 BLEU 39.55
语音分析
语音音频分析
分析语音内容,提取关键信息。
AIbase
智启未来,您的人工智能解决方案智库
简体中文