库名称:transformers
许可证:mit
数据集:
- maitrix-org/Voila-Benchmark
- maitrix-org/Voila-million-voice
语言:
- 英文
- 中文
- 法语
- 德语
- 日语
- 韩语
基础模型:
- maitrix-org/Voila-base
管道标签:audio-to-audio

Voila:语音-语言基础模型
üíú 项目主页    ÔΩú    üñ•Ô∏è GitHub    |   ü§ó Hugging Face   |    üìë 论文    |    üåê 在线演示   |    üè†Maitrix.org
Voila是一个全新的大型语音-语言基础模型家族,旨在将人机交互体验提升至新高度。它突破了传统语音AI系统的限制——高延迟、丢失语音细节和机械式响应,采用创新的端到端模型设计和新型分层Transformer架构。这种方法实现了实时、自主且丰富的语音交互,延迟低至195毫秒,超越了人类的平均响应时间。结合先进的语音和语言建模技术,Voila提供可定制、角色驱动的交互体验,并在多种音频任务中表现出色,包括六种语言的自动语音识别(ASR)、文本转语音(TTS)和语音翻译。通过在线网页演示,Voila邀请您探索一场变革性的人机自然对话体验。
‚ú® 亮点
- ‚≠ê 高保真、低延迟、实时流式音频处理
- ‚≠ê 语音与语言建模能力的高效整合
- ‚≠ê 数百万预构建及自定义语音,对话中快速切换声音
- ‚≠ê 统一模型支持多种音频任务
üé• 视频演示

üî• 最新动态!!
- 2025年4月28日:üëã 我们已发布Voila的推理代码和模型权重。
‚öôÔ∏è 基础模型
模型 |
描述 |
下载链接 |
Voila-base |
Voila基础模型 |
https://huggingface.co/maitrix-org/Voila-base |
Voila-Chat |
端到端音频聊天模型 |
https://huggingface.co/maitrix-org/Voila-chat |
Voila-Autonomous(预览版) |
全双工音频聊天模型 |
https://huggingface.co/maitrix-org/Voila-autonomous-preview |
Voila-Audio-alpha |
支持原始音频输入的大语言模型 |
https://huggingface.co/maitrix-org/Voila-audio-alpha |
Voila-Tokenizer |
音频分词器 |
https://huggingface.co/maitrix-org/Voila-Tokenizer |
使用方法
命令行演示
for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
# 文本聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-text "你好" \
--task-type chat_tito
# 语音聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
done
# 自主模式
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
Gradio演示
python gradio_demo.py
更多信息请参阅代码仓库。
üìÅ 数据集
我们发布以下两个数据集:Voila Benchmark和Voila语音库。Voila-Benchmark是一个新颖的语音评估基准,而Voila语音库提供了数百万预构建及可定制的声音。
数据集 |
描述 |
下载链接 |
Voila Benchmark |
Voila评估基准 |
https://huggingface.co/datasets/maitrix-org/Voila-Benchmark |
Voila语音库 |
数百万预构建声音 |
https://huggingface.co/datasets/maitrix-org/Voila-million-voice |
üìä 基准测试
1. Voila Benchmark
我们引入了一个名为VoilaBenchmark的新型语音评估基准。该基准通过从五个广泛使用的语言模型评估数据集(MMLU、MATH、OpenAI HumanEval、NQ-Open和GSM8k)中采样构建。我们将结果与SpeechGPT和Moshi进行对比。
模型 |
Voila Benchmark |
SpeechGPT |
13.29 |
Moshi |
11.45 |
Voila |
30.56 |
(数值越高越好)
关于Voila Benchmark在各具体领域的详细得分,请参阅我们的论文(第5.1节"Voila Benchmark评估")。
2. ASR评估
由于Voila支持多种任务,包括自动语音识别(ASR)、文本转语音(TTS)和语音问答,我们还评估了ASR和TTS的性能。
在ASR方面,我们在LibriSpeech test-clean数据集上以词错误率(WER)为指标进行评估。Voila的词错误率为4.8%,优于Moshi报告的5.7%。当两个模型都使用LibriSpeech训练数据时,Voila实现了2.7%的出色WER。
模型 |
LibriSpeech test-clean (WER) |
Whisper large v2 |
2.7 |
Whisper large v3 |
2.2 |
FastConformer |
3.6 |
VoxtLM |
2.7 |
Moshi |
5.7 |
Voila (未使用LibriSpeech训练集) |
4.8 |
Voila (使用LibriSpeech训练集) |
2.7 |
(数值越低越好)
3. TTS评估
对于TTS,我们遵循Vall-E提出的评估指标,使用HuBERT-Large对生成的音频进行转录。
Voila再次领先,WER为3.2%(使用LibriSpeech训练数据时为2.8%)。
模型 |
LibriSpeech test-clean (WER) |
YourTTS |
7.7 |
Vall-E |
5.9 |
Moshi |
4.7 |
Voila (未使用LibriSpeech训练集) |
3.2 |
Voila (使用LibriSpeech训练集) |
2.8 |
(数值越低越好)
üìù 引用
如果您觉得我们的工作有帮助,请引用我们。
@article{voila2025,
author = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
title = {Voila:支持实时自主交互与语音角色扮演的语音-语言基础模型},
eprint={2505.02707},
archivePrefix={arXiv},
primaryClass={cs.CL},
year = {2025}
}