Ultravox-v0_3开源多模态语音大模型 - 免费部署，语音文本输入都能处理

首页

Ultravox V0 3

由 FriendliAI 开发

Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers

英语开源协议:MIT #多模态语音理解 #语音代理交互 #低延迟语音处理

下载量 20

发布时间 : 3/19/2025

模型简介

Ultravox 是一个多模态模型，可以接收语音和文本输入（如文本系统提示和语音用户消息），并生成文本输出。未来版本计划支持生成语义和声学音频标记以产生语音输出。

模型特点

多模态输入

可以同时接收语音和文本输入，通过特殊伪标记 <|audio|> 将音频嵌入向量与文本提示合并处理。

语音理解

能够理解语音内容并生成相应的文本输出，适用于语音代理、语音翻译等任务。

知识蒸馏

使用知识蒸馏损失函数，使模型匹配基于文本的 Llama 主干网络的逻辑输出。

模型能力

语音识别

文本生成

语音到文本翻译

语音分析

使用案例

语音代理

语音助手

作为语音代理回答用户问题，提供友好且乐于助人的交互体验。

语音翻译

英德翻译

将英语语音翻译为德语文本。

BLEU 分数 22.68

西英翻译

将西班牙语语音翻译为英语文本。

BLEU 分数 24.10

语音识别

LibriSpeech 测试

在 LibriSpeech 干净测试集上进行语音识别。

WER 6.67

🚀 Ultravox模型卡片

Ultravox是一款多模态语音大语言模型（LLM），它基于预训练的[Llama3.1 - 8B - Instruct](https://huggingface.co/meta - llama/Meta - Llama - 3.1 - 8B)和[Whisper - small](https://huggingface.co/openai/whisper - small)主干构建。有关GitHub仓库和更多信息，请访问https://ultravox.ai 。

🚀 快速开始

Ultravox可作为一个能同时处理语音和文本输入的多模态模型使用，例如可以接收文本系统提示和语音用户消息。你可以按照以下步骤使用该模型：

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_3', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)