fastspeech2-en-200_speaker-cv4开源英语文本转语音模型

首页

Fastspeech2 En 200 Speaker Cv4

由 facebook 开发

基于FastSpeech 2架构的英语文本转语音模型，支持200种不同声音，基于Common Voice v4数据集训练。

语音合成英语#多说话人TTS #英语语音合成 #FastSpeech2架构

下载量 37

发布时间 : 3/2/2022

模型简介

这是一个多说话人文本转语音模型，能够将英语文本转换为自然语音，支持200种不同的男声和女声。

模型特点

多说话人支持

模型支持200种不同的男声和女声，可在使用时随机选择说话人。

高质量语音合成

基于FastSpeech 2架构，能够生成自然流畅的语音输出。

大规模数据集训练

使用Common Voice v4数据集进行训练，保证了模型的泛化能力。

模型能力

英语文本转语音

多说话人语音合成

使用案例

语音合成应用

语音助手

为语音助手系统提供自然的多声音语音输出。

生成自然流畅的语音响应

有声读物

将文本内容自动转换为多种声音的有声读物。

支持200种不同声音的朗读

🚀 fastspeech2-en-200_speaker-cv4

FastSpeech 2是一个文本转语音模型，来自fairseq S²。它具备以下特点：支持英文语音合成，拥有200种男女声线（在使用小部件时随机选择说话人），并且在Common Voice v4数据集上进行训练。该模型能有效解决文本到语音的转换问题，为语音合成应用提供了强大的支持。

🚀 快速开始

本模型可直接用于英文文本转语音任务，以下是使用示例代码。

💻 使用示例

基础用法

from fairseq.checkpoint_utils import load_model_ensemble_and_task_from_hf_hub
from fairseq.models.text_to_speech.hub_interface import TTSHubInterface
import IPython.display as ipd


models, cfg, task = load_model_ensemble_and_task_from_hf_hub(
    "facebook/fastspeech2-en-200_speaker-cv4",
    arg_overrides={"vocoder": "hifigan", "fp16": False}
)
model = models[0]
TTSHubInterface.update_cfg_with_data_cfg(cfg, task.data_cfg)
generator = task.build_generator(model, cfg)

text = "Hello, this is a test run."

sample = TTSHubInterface.get_model_input(task, text)
wav, rate = TTSHubInterface.get_prediction(task, model, generator, sample)

ipd.Audio(wav, rate=rate)

更多使用说明可参考 fairseq S² 示例。

📚 详细文档

模型信息
- 模型类型：FastSpeech 2文本转语音模型
- 训练数据：Common Voice v4 | 属性 | 详情 | |------|------| | 模型类型 | FastSpeech 2文本转语音模型 | | 训练数据 | Common Voice v4 |

📄 许可证

文档中未提及相关许可证信息。

📄 引用

如果您使用了该模型，请按照以下格式进行引用：

@inproceedings{wang-etal-2021-fairseq,
    title = "fairseq S{\^{}}2: A Scalable and Integrable Speech Synthesis Toolkit",
    author = "Wang, Changhan  and
      Hsu, Wei-Ning  and
      Adi, Yossi  and
      Polyak, Adam  and
      Lee, Ann  and
      Chen, Peng-Jen  and
      Gu, Jiatao  and
      Pino, Juan",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-demo.17",
    doi = "10.18653/v1/2021.emnlp-demo.17",
    pages = "143--152",
}