VoxPolska-V1-Merged-16bit开源模型 - 免费实现自然流畅波兰语文本转语音

首页

Voxpolska V1 Merged 16bit

由 salihfurkaan 开发

VoxPolska是一个专注于波兰语文本到语音转换的先进模型，能够生成自然流畅且富有表现力的波兰语语音。

语音合成

Transformers

其他开源协议:Apache-2.0 #波兰语语音合成 #高保真音频 #语境感知

下载量 116

发布时间 : 5/6/2025

模型简介

VoxPolska是一个基于Orpheus TTS架构的波兰语文本到语音转换模型，通过LoRA微调和16位量化优化，能够将波兰语书面文本转换为高质量的语音输出。

模型特点

语境感知语音

能够捕捉波兰语细微差别和语调，生成自然流畅的语音

高保真音质

24 kHz音频输出，实现高质量的语音合成

高效训练

采用LoRA微调和16位量化技术优化模型性能

大规模训练数据

基于24000+波兰语文本-音频对进行训练

模型能力

波兰语文本到语音转换

高质量语音合成

语境感知语音生成

使用案例

语音合成应用

语音助手

为波兰语语音助手提供自然流畅的语音输出

生成富有表现力的波兰语语音

有声读物

将波兰语文本转换为有声读物

保持文本情感和语调的高质量语音

语音导航系统

为波兰语导航系统提供清晰的语音指引

准确传达导航信息的自然语音

🚀 VoxPolska：下一代波兰语语音生成

VoxPolska 是一款专注于波兰语语音生成的模型，它能够将书面的波兰语文本转化为自然、流畅且富有表现力的语音，精准捕捉波兰语的细微差别和语调。

📋 模型信息

属性	详情
基础模型	unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit
标签	transformers、unsloth、llama、trl、tts、tex-to-speech
许可证	apache - 2.0
语言	波兰语
数据集	czyzi0/the-mc-speech-dataset
任务类型	文本转语音

✨ 主要特性

上下文感知语音：生成的语音能够捕捉波兰语的细微差别和语调。
先进技术展示：在语音合成和波兰语处理方面展现出卓越的能力。
自然流畅表达：将书面的波兰语文本转换为自然、流畅且富有表现力的语音。
先进深度学习：采用前沿的深度学习技术，以实现最佳性能。
前沿技术应用：展示了在语音合成和波兰语处理方面的先进水平。

🔧 技术细节

基础模型：Orpheus TTS
低秩适配微调：应用 LoRA（低秩适配）微调以优化模型性能。
采样率：24 kHz 音频输出，实现高保真音效。
训练数据：使用 24000 多个波兰语转录和音频对进行训练。
量化合并：合并 16 位量化。
音频解码：采用定制的逐层处理进行音频生成。
重复惩罚：设置为 1.1，避免重复短语。
梯度检查点：启用以实现高效的内存使用。

💻 使用示例

基础用法

以下是在笔记本中运行该模型的示例代码：

!pip install snac torch transformers

import torch
import snac
from snac import SNAC
from transformers import AutoTokenizer, AutoModelForCausalLM
import os
from IPython.display import display, Audio

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

tokenizer = AutoTokenizer.from_pretrained("salihfurkaan/VoxPolska-V1-Merged-16bit")
model = AutoModelForCausalLM.from_pretrained("salihfurkaan/VoxPolska-V1-Merged-16bit").to(device)

os.environ["HF_TOKEN"] = "your huggingface token here"
snac_model = SNAC.from_pretrained("hubertsiuzdak/snac_24khz").to(device)

prompts = [
    "Cześć, jestem dużym modelem języka sztucznej inteligencji"
]  #an example prompt
chosen_voice = None

prompts_ = [(f"{chosen_voice}: " + p) if chosen_voice else p for p in prompts]
all_input_ids = []
for prompt in prompts_:
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids
    all_input_ids.append(input_ids)

start_token = torch.tensor([[128259]], dtype=torch.int64)  # Start of human
end_tokens = torch.tensor([[128009, 128260]], dtype=torch.int64)  # End of text, End of human

all_modified_input_ids = []
for input_ids in all_input_ids:
    modified_input_ids = torch.cat([start_token, input_ids, end_tokens], dim=1)
    all_modified_input_ids.append(modified_input_ids)

all_padded_tensors = []
all_attention_masks = []
max_length = max([x.shape[1] for x in all_modified_input_ids])
for modified_input_ids in all_modified_input_ids:
    padding = max_length - modified_input_ids.shape[1]
    padded_tensor = torch.cat([torch.full((1, padding), 128263, dtype=torch.int64), modified_input_ids], dim=1)
    attention_mask = torch.cat([torch.zeros((1, padding), dtype=torch.int64), torch.ones((1, modified_input_ids.shape[1]), dtype=torch.int64)], dim=1)
    all_padded_tensors.append(padded_tensor)
    all_attention_masks.append(attention_mask)

all_padded_tensors = torch.cat(all_padded_tensors, dim=0).to(device)
all_attention_masks = torch.cat(all_attention_masks, dim=0).to(device)

generated_ids = model.generate(
    input_ids=all_padded_tensors,
    attention_mask=all_attention_masks,
    max_new_tokens=1200,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
    repetition_penalty=1.1,
    num_return_sequences=1,
    eos_token_id=128258,
    use_cache=True
)

token_to_find = 128257
token_to_remove = 128258
token_indices = (generated_ids == token_to_find).nonzero(as_tuple=True)

if len(token_indices[1]) > 0:
    last_occurrence_idx = token_indices[1][-1].item()
    cropped_tensor = generated_ids[:, last_occurrence_idx+1:]
else:
    cropped_tensor = generated_ids

processed_rows = []
for row in cropped_tensor:
    masked_row = row[row != token_to_remove]
    processed_rows.append(masked_row)

code_lists = []
for row in processed_rows:
    row_length = row.size(0)
    new_length = (row_length // 7) * 7
    trimmed_row = row[:new_length]
    trimmed_row = [t - 128266 for t in trimmed_row]
    code_lists.append(trimmed_row)

def redistribute_codes(code_list):
    layer_1 = []
    layer_2 = []
    layer_3 = []
    for i in range((len(code_list) + 1) // 7):
        layer_1.append(code_list[7 * i])
        layer_2.append(code_list[7 * i + 1] - 4096)
        layer_3.append(code_list[7 * i + 2] - (2 * 4096))
        layer_3.append(code_list[7 * i + 3] - (3 * 4096))
        layer_2.append(code_list[7 * i + 4] - (4 * 4096))
        layer_3.append(code_list[7 * i + 5] - (5 * 4096))
        layer_3.append(code_list[7 * i + 6] - (6 * 4096))

    codes = [
        torch.tensor(layer_1).unsqueeze(0).to(device),
        torch.tensor(layer_2).unsqueeze(0).to(device),
        torch.tensor(layer_3).unsqueeze(0).to(device)
    ]
    audio_hat = snac_model.decode(codes)
    return audio_hat

my_samples = []
for code_list in code_lists:
    samples = redistribute_codes(code_list)
    my_samples.append(samples)

if len(prompts) != len(my_samples):
    raise Exception("Number of prompts and samples do not match")
else:
    for i in range(len(my_samples)):
        print(prompts[i])
        samples = my_samples[i]
        display(Audio(samples.detach().squeeze().to("cpu").numpy(), rate=24000))

del my_samples, samples

你可以从这里获取你的 Hugging Face 令牌。

📞 联系与支持

如有问题、建议或反馈，请在 Hugging Face 上提交问题。你也可以通过以下方式联系作者： LinkedIn

⚠️ 模型使用规范

请勿在未经同意的情况下使用此模型进行模仿、传播错误信息或欺骗行为（包括虚假新闻或欺诈性电话），或任何非法或有害活动。使用此模型即表示你同意遵守所有适用的法律和道德准则。

📖 引用信息

@misc{
  title={salihfurkaan/VoxPolska-V1-Merged-16bit},
  author={Salih Furkan Erik},
  year={2025},
  url={https://huggingface.co/salihfurkaan/VoxPolska-V1-Merged-16bit/}
}