语言:
- 丹麦语
许可证: mit
基础模型: microsoft/speecht5_tts
标签:
- 训练生成
数据集:
- alexandrainst/nst-da
模型索引:
- 名称: speecht5_tts-finetuned-nst-da
结果: []
指标:
- 均方误差
管道标签: 文本转语音
speecht5_tts-finetuned-nst-da
该模型是基于NST丹麦语ASR数据库数据集对microsoft/speecht5_tts进行微调的版本。在评估集上取得了以下结果:
模型描述
鉴于丹麦语是一种资源较少的语言,网上可用的丹麦语文本转语音合成器的开源实现并不多。截至撰写时,🤗上仅有的其他现有实现是facebook/seamless-streaming和audo/seamless-m4t-v2-large。开发此模型是为了提供一个更简单但仍表现良好的替代方案,无论是在输出质量还是推理时间方面。此外,与上述模型不同,此模型在🤗上还有一个关联的Space:JackismyShephard/danish-speech-synthesis,提供了一个简单的丹麦语文本转语音合成界面,以及可选的语音增强功能。
预期用途与限制
该模型用于丹麦语文本转语音合成。
该模型无法识别特殊符号如“æ”、“ø”和“å”,因为它使用了microsoft/speecht5_tts的默认分词器。该模型在短到中等长度的输入文本上表现最佳,且期望输入文本不超过600个词汇标记。此外,为了获得最佳性能,模型应提供一个丹麦语说话者嵌入,理想情况下是通过使用speechbrain/spkrec-xvect-voxceleb从alexandrainst/nst-da的训练分割中生成的音频片段。
模型的输出是一个对数梅尔频谱图,应使用microsoft/speecht5_hifigan转换为波形。为了提高输出质量,可以使用ResembleAI/resemble-enhance对生成的波形进行增强。
一个展示如何使用该模型进行推理的示例脚本可以在这里找到。
训练与评估数据
该模型在alexandrainst/nst-da上使用均方误差作为损失和指标进行训练和评估。数据集预处理步骤如下:
训练过程
用于训练模型(及其数据预处理)的脚本可以在这里找到。
训练超参数
训练过程中使用了以下超参数:
- 学习率: 1e-05
- 训练批次大小: 16
- 评估批次大小: 16
- 随机种子: 42
- 优化器: Adam,beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率调度器预热比例: 0.1
- 训练轮数: 20
- 混合精度训练: Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
0.4445 |
1.0 |
9429 |
0.4100 |
0.4169 |
2.0 |
18858 |
0.3955 |
0.412 |
3.0 |
28287 |
0.3882 |
0.3982 |
4.0 |
37716 |
0.3826 |
0.4032 |
5.0 |
47145 |
0.3817 |
0.3951 |
6.0 |
56574 |
0.3782 |
0.3971 |
7.0 |
66003 |
0.3782 |
0.395 |
8.0 |
75432 |
0.3757 |
0.3952 |
9.0 |
84861 |
0.3749 |
0.3835 |
10.0 |
94290 |
0.3740 |
0.3863 |
11.0 |
103719 |
0.3754 |
0.3845 |
12.0 |
113148 |
0.3732 |
0.3788 |
13.0 |
122577 |
0.3715 |
0.3834 |
14.0 |
132006 |
0.3717 |
0.3894 |
15.0 |
141435 |
0.3718 |
0.3845 |
16.0 |
150864 |
0.3714 |
0.3823 |
17.0 |
160293 |
0.3692 |
0.3858 |
18.0 |
169722 |
0.3703 |
0.3919 |
19.0 |
179151 |
0.3716 |
0.3906 |
20.0 |
188580 |
0.3709 |
框架版本
- Transformers 4.37.2
- Pytorch 2.1.1+cu121
- Datasets 2.17.0
- Tokenizers 0.15.2