许可协议: cc-by-nc-4.0
标签:
- 多模态语音系统
- 变分推理文本转语音
任务类型: 文本转语音
大规模多语言语音(MMS): 塔马哈克语(塔瓦拉马特方言)文本转语音模型
本仓库包含**塔马哈克语-塔瓦拉马特方言(提非纳文字)**的文本转语音(TTS)模型检查点。
该模型隶属于Meta公司的大规模多语言语音项目,旨在为多种语言提供语音技术支持。您可以在MMS语言覆盖概览查看支持语言的详细信息及其ISO 639-3代码,并通过Hugging Face模型库获取所有MMS-TTS检查点。
MMS-TTS模型已集成至🤗 Transformers库(4.33版本起)。
模型架构
VITS模型(基于对抗学习的变分推理端到端文本转语音系统)是一种端到端语音合成模型,可根据输入文本序列预测语音波形。该模型由后验编码器、解码器和条件先验组成的条件变分自编码器(VAE)。
通过基于流的模块预测声学特征谱图,该模块包含Transformer文本编码器和多重耦合层。谱图解码采用转置卷积层堆栈,其结构类似HiFi-GAN声码器。针对文本转语音任务中"一对多"的特性(同一文本可对应多种发音方式),模型还包含随机时长预测器,使模型能基于相同文本合成不同节奏的语音。
模型通过结合变分下界损失和对抗训练的端到端方式进行训练。为增强表现力,在条件先验分布中应用了标准化流技术。推理时,文本编码根据时长预测模块进行上采样,随后通过流模块和HiFi-GAN解码器级联映射为波形。由于时长预测器的随机性,模型具有非确定性特征,需固定随机种子才能生成相同语音波形。
在MMS项目中,每种语言都训练了独立的VITS检查点。
使用方式
MMS-TTS模型已集成至🤗 Transformers库(4.33版本起)。使用前请先安装最新版库:
pip install --upgrade transformers accelerate
运行以下代码进行推理:
from transformers import VitsModel, AutoTokenizer
import torch
model = VitsModel.from_pretrained("facebook/mms-tts-ttq-script_tifinagh")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-ttq-script_tifinagh")
text = "塔马哈克语-塔瓦拉马特方言示例文本"
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
output = model(**inputs).waveform
生成波形可保存为.wav文件:
import scipy
scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)
或在Jupyter Notebook/Google Colab中直接播放:
from IPython.display import Audio
Audio(output, rate=model.config.sampling_rate)
引用文献
本模型由Meta AI的Vineel Pratap团队开发。若使用该模型,请引用MMS论文:
@article{pratap2023mms,
title={Scaling Speech Technology to 1,000+ Languages},
author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
journal={arXiv},
year={2023}
}
许可声明
本模型采用CC-BY-NC 4.0知识共享许可协议。