japanese-parler-tts-large-bate开源日语文本转语音模型

首页

Japanese Parler Tts Large Bate

由 2121-8 开发

基于parler-tts-large-v1再训练的日语文本转语音模型，可生成高质量日语语音

语音合成

Transformers

日语开源协议:其他 #日语语音合成 #高质量语音生成 #轻量化TTS

下载量 114

发布时间 : 11/19/2024

模型简介

本模型是基于parler-tts-large-v1进行日语适配的文本转语音模型，专注于日语语音合成，在保持轻量化的同时提供高质量的语音生成能力。

模型特点

日语语音合成

专门针对日语优化的语音合成能力，可生成自然流畅的日语语音

高质量输出

在保持模型轻量化的同时，能够生成高质量的语音输出

说话人控制

支持通过描述控制生成语音的音调、语速等特征

模型能力

日语文本转语音

语音特征控制

高质量语音生成

使用案例

语音合成应用

语音助手

为日语语音助手提供自然语音输出

生成自然流畅的日语语音

有声读物

将日语文本转换为有声读物

生成适合长时间聆听的清晰语音

🚀 日语Parler-TTS大模型 (β版)

本仓库公开了一个基于parler-tts/parler-tts-large-v1进行再训练的模型，使其能够实现日语的文本朗读功能。该模型虽轻量，但能提供高质量的语音生成。

🔍 模型信息

属性	详情
基础模型	parler-tts/parler-tts-large-v1、retrieva-jp/t5-base-long
训练数据集	ylacombe/libritts_r_filtered、ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents
任务类型	文本转音频
库名称	transformers
标签	文本转语音、标注、日语
许可证	其他

⚠️ 重要提示

本模型与原版Parler-TTS所使用的分词器不兼容，采用了专为该模型设计的分词器。
目前此仓库处于β版，功能和模型的优化工作正在朝着正式发布的方向推进。

🌟 正式发布版链接

日语Parler-TTS迷你版 (878M)
日语Parler-TTS大模型 (878M) 正在筹备中

📚 日语Parler-TTS索引

日语Parler-TTS迷你版
日语Parler-TTS大模型 (若计算资源充足将进行训练)
日语Parler-TTS迷你测试版
日语Parler-TTS大测试版

⚠️ 注意事项

日语Parler-TTS大模型语音表现力丰富，能生成高质量语音，但由于训练不足，运行时可能不稳定。若注重稳定性，建议使用更轻量且运行稳定的日语Parler-TTS迷你版。
由于训练数据中男性语音相关数据较少，该模型可能无法如预期般生成男性语音，尤其是在自然语调及音质调整方面可能存在困难，请知悉。

🚀 快速开始

📦 安装指南

可使用以下命令进行安装：

pip install git+https://github.com/huggingface/parler-tts.git
pip install git+https://github.com/getuka/RubyInserter.git

💻 使用示例

🔰 基础用法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf
from rubyinserter import add_ruby

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("2121-8/japanese-parler-tts-large-bate").to(device)
tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-large-bate")

prompt = "こんにちは、今日はどのようにお過ごしですか？"
description = "A female speaker with a slightly high-pitched voice delivers her words at a moderate speed with a quite monotone tone in a confined environment, resulting in a quite clear audio recording."

prompt = add_ruby(prompt)
input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_japanese_out.wav", audio_arr, model.config.sampling_rate)