Parler-TTS迷你多语言版v1.1开源模型 - 免费支持8种欧洲语言文本转语音

首页

Parler Tts Mini Multilingual V1.1

由 parler-tts 开发

Parler-TTS 迷你多语言版 v1.1 是基于 Parler-TTS 迷你版的多语言扩展，支持8种欧洲语言的文本转语音。

语音合成

Transformers

支持多种语言开源协议:Apache-2.0 #多语言语音合成 #说话者定制 #高质量音频生成

下载量 3,020

发布时间 : 11/22/2024

模型简介

这是一个经过微调的文本转语音模型，支持英语、法语、西班牙语、葡萄牙语、波兰语、德语、意大利语和荷兰语。模型通过文本提示控制生成语音特征，并支持特定说话者的一致性。

模型特点

多语言支持

支持8种欧洲语言的文本转语音，包括英语、法语、西班牙语等。

说话者一致性

支持通过特定说话者名称生成一致的语音特征。

高质量音频

通过文本提示控制生成高质量的语音，支持调整语速、音高等特征。

开源

完全开源，包括数据集、预处理、训练代码和权重。

模型能力

文本转语音

多语言语音生成

语音特征控制

说话者一致性

使用案例

语音合成

多语言语音助手

为多语言语音助手生成自然语音。

生成高质量的语音输出

有声读物

为不同语言的有声读物生成语音。

支持多种语言的语音生成

🚀 Parler-TTS Mini Multilingual v1.1

Parler-TTS Mini Multilingual v1.1 是 Parler-TTS Mini 的多语言扩展版本。它可以支持8种欧洲语言的文本转语音功能，包括英语、法语、西班牙语、葡萄牙语、波兰语、德语、意大利语和荷兰语。并且，由于其采用了更好的提示分词器，该模型可以轻松扩展到其他语言。

🚀 快速开始

安装

使用 Parler-TTS 就像说 “bonjour” 一样简单。只需安装一次该库：

pip install git+https://github.com/huggingface/parler-tts.git

使用示例

基础用法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-multilingual-v1.1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-multilingual-v1.1")
description_tokenizer = AutoTokenizer.from_pretrained(model.config.text_encoder._name_or_path)

prompt = "Salut toi, comment vas-tu aujourd'hui?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."

input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

高级用法

此版本的模型在训练时还针对16位特定的说话人进行了优化，你可以通过指定说话人的名称来确保生成语音的一致性。例如：

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-multilingual-v1.1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-multilingual-v1.1")
description_tokenizer = AutoTokenizer.from_pretrained(model.config.text_encoder._name_or_path)

prompt = "Salut toi, comment vas-tu aujourd'hui?"
description = "Daniel's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise."

input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

你可以从以下列表中选择说话人：

语言	说话人姓名	训练出现次数
荷兰语	Mark	460066
荷兰语	Jessica	4438
荷兰语	Michelle	83
法语	Daniel	10719
法语	Michelle	19
法语	Christine	20187
法语	Megan	695
德语	Nicole	53964
德语	Christopher	1671
德语	Megan	41
德语	Michelle	12693
意大利语	Julia	2616
意大利语	Richard	9640
意大利语	Megan	4
波兰语	Alex	25849
波兰语	Natalie	9384
葡萄牙语	Sophia	34182
葡萄牙语	Nicholas	4411
西班牙语	Steven	74099
西班牙语	Olivia	48489
西班牙语	Megan	12

✨ 主要特性

多语言支持：可以支持8种欧洲语言的文本转语音功能。
可扩展性：采用了更好的提示分词器，该分词器具有更大的词汇表并支持字节回退，简化了多语言训练，因此可以轻松扩展到其他语言。
特定说话人支持：可以指定特定的说话人来生成语音，确保语音的一致性。
开源性：完全开源，所有数据集、预处理代码、训练代码和权重都在宽松的许可证下公开发布，方便社区在其基础上进行开发。

📚 详细文档

动机

Parler-TTS 是对 Dan Lyth 和 Simon King 分别来自 Stability AI 和爱丁堡大学的论文 Natural language guidance of high-fidelity text-to-speech with synthetic annotations 的复现工作。与其他 TTS 模型不同，Parler-TTS 是一个完全开源的版本。所有数据集、预处理、训练代码和权重都在宽松的许可证下公开发布，使社区能够在我们的工作基础上构建自己强大的 TTS 模型。

Parler-TTS 发布时还附带了以下资源：

The Parler-TTS repository - 你可以在其中训练和微调自己的模型版本。
The Data-Speech repository - 一套用于注释语音数据集的实用脚本。
The Parler-TTS organization - 你可以在其中找到带注释的数据集以及未来的模型检查点。

引用

如果你发现这个仓库很有用，请考虑引用这项工作以及原始的 Stability AI 论文：

@misc{lacombe-etal-2024-parler-tts,
  author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
  title = {Parler-TTS},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/huggingface/parler-tts}}
}

@misc{lyth2024natural,
      title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
      author={Dan Lyth and Simon King},
      year={2024},
      eprint={2402.01912},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}