canary-tts-150m开源日语语音合成系统 - 免费部署，支持提示词调控音质

首页

Canary Tts 150m

由 2121-8 开发

基于llm-jp/llm-jp-3-150m-instruct3训练的日语TTS语音合成系统，支持通过提示词调控音质

语音合成

PyTorch

支持多种语言#日语语音合成 #提示词可控TTS #轻量级语音生成

下载量 36

发布时间 : 4/22/2025

模型简介

实验性日语语音合成模型，采用Parler-TTS提示词架构和XCodec2音频解码器，可通过控制提示调节音高与背景噪声

模型特点

提示词控制

通过修改控制提示与朗读提示实现音质的精细调控

轻量化设计

150M参数规模适合资源受限环境部署

高质量音频输出

采用XCodec2音频解码器保障语音质量

模型能力

日语语音合成

音调调节

背景噪声控制

文本转语音

使用案例

语音交互

虚拟助手

为日语虚拟助手提供自然语音输出

可生成带情感特征的语音

内容创作

有声内容生成

自动将日语文本转换为语音

支持不同音色和语调的语音输出

🚀 Canary-TTS-150M

Canary-TTS-150M 是一个基于 llm-jp/llm-jp-3-150m-instruct3 训练的文本转语音（TTS）模型。它采用了与 Parler‑TTS 相同的提示方式，通过更改控制提示和朗读提示，可以对音质进行精细控制。该模型是在训练 Canary-TTS 0.5B 时创建的实验模型，因此推荐使用 Canary-TTS 0.5B。

🚀 快速开始

Canary-TTS 索引

✨ 主要特性

通过控制提示控制音高和噪声。
通过朗读提示进行文本朗读。
基于 Parler‑TTS 和 XCodec2 的代码构建。
基于 llama，可转移大语言模型（LLM）技术。

📦 安装指南

pip install torch torchvision torchaudio
pip install git+https://github.com/getuka/canary-tts.git

💻 使用示例

基础用法

import torch, torchaudio
from transformers import AutoModelForCausalLM, AutoTokenizer
from canary_tts.xcodec2.modeling_xcodec2 import XCodec2Model
from rubyinserter import add_ruby

tokenizer = AutoTokenizer.from_pretrained("2121-8/canary-tts-150m")
model = AutoModelForCausalLM.from_pretrained("2121-8/canary-tts-150m", device_map="auto", torch_dtype=torch.bfloat16)
codec = XCodec2Model.from_pretrained("HKUSTAudio/xcodec2")

description = "A man voice, with a very hight pitch, speaks in a monotone manner. The recording quality is very noises and close-sounding, indicating a good or excellent audio capture."
prompt = 'こんにちは。お元気ですか？'

prompt = add_ruby(prompt)
chat = [
    {"role": "system", "content": description},
    {"role": "user", "content": prompt}
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)

with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=256,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]

audio_tokens = output[len(tokenized_input[0]):]
output_audios = codec.decode_code(audio_tokens.unsqueeze(0).unsqueeze(0).cpu())
torchaudio.save("sample.wav", src=output_audios[0].cpu(), sample_rate=16000)