基础模型:
- parler-tts/parler-tts-mini-v1
数据集:
- amphion/Emilia-Dataset
语言:
- en
库名称: transformers
许可证: cc-by-nc-sa-4.0
任务标签: text-to-speech
Parler-TTS Mini v1 结合 ParaSpeechCaps
我们在ParaSpeechCaps数据集上对parler-tts/parler-tts-mini-v1进行了微调,创建了一个能够通过文本风格提示(如“一位男性说话者的发音含糊不清,语速适中,环境清晰”)控制丰富风格(音高、节奏、清晰度、情感等)的文本转语音模型。
ParaSpeechCaps(PSC)是我们提供的大规模数据集,为语音片段提供了丰富的风格标注,支持59种风格标签,涵盖说话者内在风格标签和片段情境风格标签。它包含人工标注的子集ParaSpeechCaps-Base和自动标注的大规模子集ParaSpeechCaps-Scaled。我们结合现成的文本和语音嵌入器、分类器以及音频语言模型的新颖流程,首次实现了如此多样化的风格标签自动扩展标注。
更多信息请参阅我们的论文、代码库和演示网站。
许可证: CC BY-NC SA 4.0
使用方法
安装
本仓库已在Python 3.11(conda create -n paraspeechcaps python=3.11
)下测试,但其他版本可能也适用。
git clone https://github.com/ajd12342/paraspeechcaps.git
cd paraspeechcaps/model/parler-tts
pip install -e .[train]
运行推理
import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_name = "ajd12342/parler-tts-mini-v1-paraspeechcaps"
guidance_scale = 1.5
model = ParlerTTSForConditionalGeneration.from_pretrained(model_name).to(device)
description_tokenizer = AutoTokenizer.from_pretrained(model_name)
transcription_tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")
input_description = "在清晰的环境中,一个男声以悲伤的语气说话。".replace('\n', ' ').rstrip()
input_transcription = "那是你的房东吗?".replace('\n', ' ').rstrip()
input_description_tokenized = description_tokenizer(input_description, return_tensors="pt").to(model.device)
input_transcription_tokenized = transcription_tokenizer(input_transcription, return_tensors="pt").to(model.device)
generation = model.generate(input_ids=input_description_tokenized.input_ids, prompt_input_ids=input_transcription_tokenized.input_ids, guidance_scale=guidance_scale)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("output.wav", audio_arr, model.config.sampling_rate)
如需包含基于ASR的重复采样选择等完整推理脚本,请参考我们的代码库。
引用
如果使用此模型、数据集或代码库,请引用我们的工作如下:
@misc{diwan2025scalingrichstylepromptedtexttospeech,
title={扩展丰富风格提示的文本转语音数据集},
author={Anuj Diwan and Zhisheng Zheng and David Harwath and Eunsol Choi},
year={2025},
eprint={2503.04713},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2503.04713},
}