Voila-autonomous-preview开源语音-语言模型 - 支持实时多语言语音交互，提升人机体验

首页

Voila Autonomous Preview

由 maitrix-org 开发

Voila是一个大型语音-语言基础模型家族，旨在提升人机交互体验，支持实时、低延迟的语音交互和多语言处理。

文本生成音频

Transformers

支持多种语言开源协议:MIT #实时语音交互 #多语言语音合成 #端到端音频处理

下载量 332

发布时间 : 3/18/2025

模型简介

Voila采用创新的端到端模型设计和分层Transformer架构，支持六种语言的自动语音识别（ASR）、文本转语音（TTS）和语音翻译，提供高保真、低延迟的语音交互体验。

模型特点

高保真、低延迟

支持实时流式音频处理，延迟低至195毫秒，超越人类平均响应时间。

语音与语言建模整合

高效整合语音和语言建模能力，提供丰富的交互体验。

多语音支持

提供数百万预构建及自定义语音，对话中可快速切换声音。

多任务支持

统一模型支持多种音频任务，包括ASR、TTS和语音翻译。

模型能力

自动语音识别（ASR）

文本转语音（TTS）

语音翻译

实时语音交互

多语言处理

使用案例

语音交互

实时语音聊天

支持低延迟的实时语音聊天，适用于客服、虚拟助手等场景。

延迟低至195毫秒，提供自然流畅的交互体验。

多语言处理

多语言语音翻译

支持六种语言的语音翻译，适用于跨语言沟通场景。

在LibriSpeech测试集上词错误率（WER）为4.8%。

🚀 Voila：语音 - 语言基础模型

Voila 是一系列全新的大型语音 - 语言基础模型，旨在将人机交互体验提升到新的高度。它突破了传统语音 AI 系统高延迟、丢失语音细微差别和机械响应的限制，采用了创新的端到端模型设计和新颖的分层 Transformer 架构，能够实现实时、自主且丰富的语音交互，延迟低至 195 毫秒，超越了人类的平均响应时间。通过结合先进的语音和语言建模技术，Voila 提供可定制的、基于角色的交互方式，并且在从自动语音识别（ASR）、文本转语音（TTS）到语音翻译等一系列音频任务中表现出色。

🚀 快速开始

你可以通过以下方式使用 Voila 模型：

CLI 演示

for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
    # 文本聊天
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-text "Hello" \
	    --task-type chat_tito
    # 语音聊天
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-audio "examples/test1.mp3" \
	    --task-type chat_aiao
done

# 自主模式
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
	--instruction "" \
	--input-audio "examples/test_autonomous1.mp3" \
	--task-type chat_aiao_auto

Gradio 演示

python gradio_demo.py

更多信息请参考代码仓库。

✨ 主要特性

高保真、低延迟的实时流式音频处理。
有效整合语音和语言建模能力。
拥有数百万个预建和自定义语音，对话中可快速切换语音。
统一模型适用于各种音频任务。

📦 安装指南

文档未提供安装步骤，可参考代码仓库获取相关信息。

💻 使用示例

基础用法

# 文本聊天
python infer.py \
    --model-name "maitrix-org/Voila-base" \
    --instruction "" \
    --input-text "Hello" \
    --task-type chat_tito

# 语音聊天
python infer.py \
    --model-name "maitrix-org/Voila-base" \
    --instruction "" \
    --input-audio "examples/test1.mp3" \
    --task-type chat_aiao

高级用法

# 自主模式
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
    --instruction "" \
    --input-audio "examples/test_autonomous1.mp3" \
    --task-type chat_aiao_auto

📚 详细文档

基础模型

模型	描述	下载链接
Voila-base	Voila 基础模型	https://huggingface.co/maitrix-org/Voila-base
Voila-Chat	端到端音频聊天模型	https://huggingface.co/maitrix-org/Voila-chat
Voila-Autonomous (preview)	全双工音频聊天模型	https://huggingface.co/maitrix-org/Voila-autonomous-preview
Voila-Audio-alpha	支持原始音频输入的大语言模型	https://huggingface.co/maitrix-org/Voila-audio-alpha
Voila-Tokenizer	音频分词器	https://huggingface.co/maitrix-org/Voila-Tokenizer

数据集

我们发布了以下两个数据集：Voila 基准测试集和 Voila 语音库。Voila 基准测试集是一个新颖的语音评估基准，而 Voila 语音库提供了数百万个预建和可定制的语音。

数据集	描述	下载链接
Voila 基准测试集	Voila 基准测试评估	https://huggingface.co/datasets/maitrix-org/Voila-Benchmark
Voila 语音库	数百万个预建语音	https://huggingface.co/datasets/maitrix-org/Voila-million-voice

基准测试

1. Voila 基准测试

我们引入了一个名为 Voila 基准测试的新颖语音评估基准。该基准通过从五个广泛使用的语言模型评估数据集（MMLU、MATH、OpenAI HumanEval、NQ - Open 和 GSM8k）中采样构建而成。我们将我们的结果与 SpeechGPT 和 Moshi 进行了比较。

模型	Voila 基准测试得分
SpeechGPT	13.29
Moshi	11.45
Voila	30.56

（得分越高越好）

有关 Voila 基准测试在每个特定领域的详细得分，请参考我们的论文（第 5.1 节“Voila 基准测试评估”）。

2. 自动语音识别（ASR）评估

由于 Voila 支持多项任务，包括自动语音识别（ASR）、文本转语音（TTS）和语音问答，我们还评估了 ASR 和 TTS 的性能。对于 ASR，我们在 LibriSpeech test - clean 数据集上评估性能，使用词错误率（WER）作为指标。Voila 的词错误率（WER）达到了 4.8%，优于 Moshi 报告的 5.7%。在两个模型都使用 LibriSpeech 训练数据的情况下，Voila 实现了令人印象深刻的 2.7% 的 WER。

模型	LibriSpeech test - clean（WER）
Whisper large v2	2.7
Whisper large v3	2.2
FastConformer	3.6
VoxtLM	2.7
Moshi	5.7
Voila（未使用 LibriSpeech 训练集）	4.8
Voila（使用 LibriSpeech 训练集）	2.7

（得分越低越好）

3. 文本转语音（TTS）评估

对于 TTS，我们遵循 Vall - E 中提出的评估指标，即使用 HuBERT - Large 对生成的音频进行转录。Voila 再次领先，WER 为 3.2%（使用 LibriSpeech 训练数据时为 2.8%）。

模型	LibriSpeech test - clean（WER）
YourTTS	7.7
Vall - E	5.9
Moshi	4.7
Voila（未使用 LibriSpeech 训练集）	3.2
Voila（使用 LibriSpeech 训练集）	2.8

（得分越低越好）

🔧 技术细节

Voila 采用创新的端到端模型设计和新颖的分层 Transformer 架构，突破了传统语音 AI 系统高延迟、丢失语音细微差别和机械响应的限制，能够实现实时、自主且丰富的语音交互，延迟低至 195 毫秒，超越了人类的平均响应时间。

📄 许可证

本项目采用 MIT 许可证。

📚 引用

如果您觉得我们的工作有帮助，请引用我们的论文：

@article{voila2025,
  author    = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
  title     = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
  eprint={2505.02707},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  year      = {2025}
}