Mms Tts Tam

由 facebook 开发

Facebook大规模多语言语音项目的泰米尔语文本转语音模型，基于VITS架构实现高质量的语音合成

语音合成

Transformers

#泰米尔语TTS #多语言语音合成 #VITS架构

下载量 1,109

发布时间 : 9/1/2023

模型介绍

内容详情

替代品

模型简介

该模型是MMS项目的一部分，专门针对泰米尔语(tam)的文本转语音任务，采用VITS架构实现端到端的语音合成

模型特点

端到端语音合成

基于VITS架构实现从文本直接生成语音波形的端到端合成

多语言支持

作为MMS项目的一部分，支持多种语言的语音合成

高质量语音生成

结合变分下界损失和对抗训练，生成自然流畅的语音

随机时长预测

通过随机时长预测器实现同一文本的不同节奏语音生成

模型能力

泰米尔语文本转语音

高质量语音合成

可变节奏语音生成

使用案例

语音辅助技术

泰米尔语语音助手

为泰米尔语用户提供语音交互功能

生成自然流畅的泰米尔语语音响应

教育应用

语言学习工具

帮助学习者获取准确的泰米尔语发音

提供标准泰米尔语发音示范

license: cc-by-nc-4.0 tags:

mms
vits pipeline_tag: text-to-speech

大规模多语言语音(MMS)：泰米尔语文本转语音

本仓库包含**泰米尔语(tam)**的文本转语音(TTS)模型检查点。

该模型隶属于Facebook的大规模多语言语音项目，旨在为多种语言提供语音技术支持。您可以在MMS语言覆盖概览中查看支持语言及其ISO 639-3代码的详细信息，并在Hugging Face Hub上查看所有MMS-TTS检查点：facebook/mms-tts。

MMS-TTS模型自4.33版本起集成于🤗 Transformers库中。

模型详情

VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种端到端语音合成模型，可根据输入文本序列预测语音波形。该模型是由后验编码器、解码器和条件先验组成的条件变分自编码器(VAE)。

基于流的模块（由Transformer文本编码器和多个耦合层构成）预测声学特征谱图。谱图通过转置卷积层堆栈进行解码，其风格与HiFi-GAN声码器类似。针对TTS任务中"一对多"的特性（同一文本可对应多种发音方式），模型还包含随机时长预测器，使得模型能从相同文本生成不同节奏的语音。

模型通过结合变分下界损失和对抗训练进行端到端训练。为增强表现力，在条件先验分布中应用了标准化流技术。推理时，文本编码根据时长预测模块进行上采样，随后通过流模块和HiFi-GAN解码器级联映射为波形。由于时长预测器的随机性，该模型具有非确定性，需固定随机种子才能生成相同语音波形。

在MMS项目中，每种语言都训练了独立的VITS检查点。

使用方式

MMS-TTS自4.33版本起集成于🤗 Transformers库。使用前请先安装最新版库：

pip install --upgrade transformers accelerate

运行以下代码进行推理：

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-tam")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-tam")

text = "泰米尔语示例文本"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

生成波形可保存为.wav文件：

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output.numpy())

或在Jupyter Notebook/Google Colab中播放：

from IPython.display import Audio

Audio(output.numpy(), rate=model.config.sampling_rate)

引用文献

本模型由Meta AI的Vineel Pratap等人开发。若使用该模型，请引用MMS论文：

@article{pratap2023mms,
    title={Scaling Speech Technology to 1,000+ Languages},
    author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
    journal={arXiv},
    year={2023}
}