ultravox-v0_4_1-llama-3_1-8b开源多模态语音模型

首页

Ultravox V0 4 1 Llama 3 1 8b

由 fixie-ai 开发

Ultravox是基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers

支持多种语言开源协议:MIT #多模态语音理解 #低延迟语音交互 #多语言语音翻译

下载量 747

发布时间 : 11/5/2024

模型简介

Ultravox是一个多模态模型，可以接收语音和文本输入，并生成文本输出。适用于语音代理、语音翻译和语音分析等场景。

模型特点

多模态输入

能够同时接收语音和文本输入，通过特殊伪标记<|audio|>处理音频嵌入。

多语言支持

支持15种语言，包括中文、英语、西班牙语等。

高效推理

在使用A100-40GB GPU时，音频内容的首token延迟约150ms，token生成速度约50-100个/秒。

模型能力

语音识别

文本生成

语音翻译

语音分析

使用案例

语音代理

语音助手

作为语音助手回答用户问题。

语音翻译

多语言翻译

将语音输入翻译成多种语言。

在英阿翻译中BLEU得分为12.28，英德翻译为27.13。

🚀 Ultravox模型介绍

Ultravox是一个多模态语音大语言模型，它基于预训练的[Llama3.1 - 8B - Instruct](https://huggingface.co/meta - llama/Meta - Llama - 3.1 - 8B)和[whisper - large - v3 - turbo](https://huggingface.co/openai/whisper - large - v3 - turbo)骨干网络构建。该模型能够同时处理语音和文本输入，具有广泛的应用前景。更多信息请访问GitHub仓库。

📦 模型信息

属性	详情
数据集	fixie - ai/librispeech_asr、fixie - ai/common_voice_17_0、fixie - ai/peoples_speech、fixie - ai/gigaspeech、fixie - ai/multilingual_librispeech、fixie - ai/wenetspeech、fixie - ai/covost2
支持语言	ar、de、en、es、fr、hi、it、ja、nl、pt、ru、sv、tr、uk、zh
库名称	transformers
许可证	MIT
评估指标	bleu
任务类型	音频文本转文本

📚 详细文档

✨ 模型描述

Ultravox是一个多模态模型，它可以同时接受语音和文本作为输入（例如，文本系统提示和语音用户消息）。模型的输入是带有特殊<|audio|>伪令牌的文本提示，模型处理器会用从输入音频中提取的嵌入替换这个特殊令牌。然后，模型将使用合并后的嵌入作为输入，像往常一样生成输出文本。

在未来的版本中，我们计划扩展令牌词汇表，以支持生成语义和声学音频令牌，这些令牌可以被输入到声码器中以产生语音输出。此版本的模型尚未进行偏好调整。

开发者：Fixie.ai
许可证：MIT

🌐 模型来源

仓库地址：https://ultravox.ai
演示地址：见仓库

💻 使用示例

基础用法

可以将该模型视为一个还能“听”和理解语音的大语言模型。因此，它可以用作语音代理，也可用于语音到语音的翻译、语音音频分析等。

要使用该模型，可以尝试以下代码：

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)