基于FastSpeech2架构的冰岛语文本转语音模型,使用talromur数据集训练
下载量 53
发布时间 : 4/19/2022
模型介绍
内容详情
替代品
模型简介
这是一个基于ESPnet框架的FastSpeech2文本转语音模型,专门针对冰岛语进行优化,能够将文本转换为自然语音输出。
模型特点
FastSpeech2架构
采用FastSpeech2模型架构,具有高效的语音合成能力
冰岛语优化
专门针对冰岛语进行训练和优化
音高和能量预测
包含独立的音高和能量预测模块,提高语音自然度
模型能力
文本转语音
冰岛语语音合成
音高控制
能量控制
使用案例
语音合成
有声读物生成
将冰岛语文本转换为自然语音的有声读物
语音助手
为冰岛语语音助手提供语音合成能力
标签:
- espnet
- 音频
- 文本转语音 语言: en 数据集:
- talromur 许可证: cc-by-4.0
ESPnet2 TTS 模型
espnet/GunnarThor_talromur_b_fastspeech2
该模型由 Gunnar Thor 使用 espnet 中的 talromur 配方训练而成。
演示:如何在 ESPnet2 中使用
cd espnet
git checkout 49a284e69308d81c142b89795de255b4ce290c54
pip install -e .
cd egs2/talromur/tts1
./run.sh --skip_data_prep false --skip_train true --download_model espnet/GunnarThor_talromur_b_fastspeech2
TTS 配置
展开
配置: conf/tuning/train_fastspeech2.yaml
打印配置: false
日志级别: INFO
空运行: false
迭代器类型: sequence
输出目录: exp/b/tts_train_fastspeech2_raw_phn_none
GPU数量: 1
随机种子: 0
工作线程数: 1
注意力绘图数: 3
分布式后端: nccl
分布式初始化方法: env://
分布式世界大小: null
分布式排名: null
本地排名: 0
分布式主地址: null
分布式主端口: null
分布式启动器: null
多进程分布式: false
未使用参数: false
分片DDP: false
启用CuDNN: true
CuDNN基准测试: false
CuDNN确定性: true
收集统计信息: false
写入收集的特征: false
最大训练轮数: 100
耐心值: null
验证调度标准:
- valid
- loss
早停标准:
- valid
- loss
- min
最佳模型标准:
- - valid
- loss
- min
- - train
- loss
- min
保留最佳模型数: 5
最佳模型平均间隔: 0
梯度裁剪: 1.0
梯度裁剪类型: 2.0
梯度噪声: false
梯度累积: 8
不进行前向运行: false
恢复训练: true
训练数据类型: float32
使用混合精度: false
日志间隔: null
使用Matplotlib: true
使用TensorBoard: true
使用WandB: false
WandB项目: null
WandB ID: null
WandB实体: null
WandB名称: null
WandB模型日志间隔: -1
检测异常: false
预训练路径: null
初始化参数: []
忽略初始化不匹配: false
冻结参数: []
每轮迭代次数: 800
批量大小: 20
验证批量大小: null
批量分箱: 2500000
验证批量分箱: null
训练形状文件:
- exp/b/tts_train_tacotron2_raw_phn_none/decode_use_teacher_forcingtrue_train.loss.ave/stats/train/text_shape.phn
- exp/b/tts_train_tacotron2_raw_phn_none/decode_use_teacher_forcingtrue_train.loss.ave/stats/train/speech_shape
验证形状文件:
- exp/b/tts_train_tacotron2_raw_phn_none/decode_use_teacher_forcingtrue_train.loss.ave/stats/valid/text_shape.phn
- exp/b/tts_train_tacotron2_raw_phn_none/decode_use_teacher_forcingtrue_train.loss.ave/stats/valid/speech_shape
批量类型: numel
验证批量类型: null
折叠长度:
- 150
- 204800
批量内排序: descending
批量排序: descending
多迭代器: false
分块长度: 500
分块移动比例: 0.5
缓存分块数: 1024
训练数据路径、名称和类型:
- - dump/raw/train_b_phn/text
- text
- text
- - exp/b/tts_train_tacotron2_raw_phn_none/decode_use_teacher_forcingtrue_train.loss.ave/train_b_phn/durations
- durations
- text_int
- - dump/raw/train_b_phn/wav.scp
- speech
- sound
验证数据路径、名称和类型:
- - dump/raw/dev_b_phn/text
- text
- text
- - exp/b/tts_train_tacotron2_raw_phn_none/decode_use_teacher_forcingtrue_train.loss.ave/dev_b_phn/durations
- durations
- text_int
- - dump/raw/dev_b_phn/wav.scp
- speech
- sound
允许可变数据键: false
最大缓存大小: 0.0
最大缓存文件描述符: 32
验证最大缓存大小: null
优化器: adam
优化器配置:
lr: 1.0
调度器: noamlr
调度器配置:
model_size: 384
warmup_steps: 4000
标记列表:
- <blank>
- <unk>
- ','
- .
- r
- t
- n
- a0
- s
- I0
- D
- l
- Y0
- m
- v
- h
- E1
- k
- a:1
- E:1
- j
- f
- T
- G
- a1
- p
- c
- au:1
- i:1
- O:1
- E0
- I:1
- r_0
- I1
- t_h
- k_h
- Y1
- i0
- ei1
- u:1
- ou:1
- ei:1
- O1
- N
- l_0
- '91'
- ou0
- ai0
- n_0
- au1
- O0
- ou1
- ai:1
- ei0
- '9:1'
- ai1
- i1
- c_h
- '90'
- au0
- x
- C
- p_h
- u0
- 9i:1
- Y:1
- 9i1
- J
- u1
- 9i0
- N_0
- m_0
- J_0
- Oi1
- Yi0
- Yi1
- Oi0
- '9:0'
- au:0
- E:0
- <sos/eos>
输出维度: null
模型配置: {}
使用预处理器: true
标记类型: phn
BPE模型: null
非语言符号: null
清理器: null
G2P: null
特征提取: fbank
特征提取配置:
n_fft: 1024
hop_length: 256
win_length: null
fs: 22050
fmin: 80
fmax: 7600
n_mels: 80
归一化: global_mvn
归一化配置:
统计文件: exp/b/tts_train_tacotron2_raw_phn_none/decode_use_teacher_forcingtrue_train.loss.ave/stats/train/feats_stats.npz
TTS: fastspeech2
TTS配置:
adim: 384
aheads: 2
elayers: 4
eunits: 1536
dlayers: 4
dunits: 1536
positionwise_layer_type: conv1d
positionwise_conv_kernel_size: 3
duration_predictor_layers: 2
duration_predictor_chans: 256
duration_predictor_kernel_size: 3
postnet_layers: 5
postnet_filts: 5
postnet_chans: 256
use_masking: true
use_scaled_pos_enc: true
encoder_normalize_before: true
decoder_normalize_before: true
reduction_factor: 1
init_type: xavier_uniform
init_enc_alpha: 1.0
init_dec_alpha: 1.0
transformer_enc_dropout_rate: 0.2
transformer_enc_positional_dropout_rate: 0.2
transformer_enc_attn_dropout_rate: 0.2
transformer_dec_dropout_rate: 0.2
transformer_dec_positional_dropout_rate: 0.2
transformer_dec_attn_dropout_rate: 0.2
pitch_predictor_layers: 5
pitch_predictor_chans: 256
pitch_predictor_kernel_size: 5
pitch_predictor_dropout: 0.5
pitch_embed_kernel_size: 1
pitch_embed_dropout: 0.0
stop_gradient_from_pitch_predictor: true
energy_predictor_layers: 2
energy_predictor_chans: 256
energy_predictor_kernel_size: 3
energy_predictor_dropout: 0.5
energy_embed_kernel_size: 1
energy_embed_dropout: 0.0
stop_gradient_from_energy_predictor: false
音高提取: dio
音高提取配置:
fs: 22050
n_fft: 1024
hop_length: 256
f0max: 400
f0min: 80
reduction_factor: 1
音高归一化: global_mvn
音高归一化配置:
统计文件: exp/b/tts_train_tacotron2_raw_phn_none/decode_use_teacher_forcingtrue_train.loss.ave/stats/train/pitch_stats.npz
能量提取: energy
能量提取配置:
fs: 22050
n_fft: 1024
hop_length: 256
win_length: null
reduction_factor: 1
能量归一化: global_mvn
能量归一化配置:
统计文件: exp/b/tts_train_tacotron2_raw_phn_none/decode_use_teacher_forcingtrue_train.loss.ave/stats/train/energy_stats.npz
必需项:
- output_dir
- token_list
版本: 0.10.7a1
分布式: false
引用 ESPnet
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Yalta and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
或 arXiv:
@misc{watanabe2018espnet,
title={ESPnet: End-to-End Speech Processing Toolkit},
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Yalta and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
year={2018},
eprint={1804.00015},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Kokoro 82M
Apache-2.0
Kokoro是一款拥有8200万参数的开源文本转语音(TTS)模型,以其轻量级架构和高音质著称,同时具备快速和成本效益高的特点。
语音合成
英语
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的语音生成模型,仅需6秒音频片段即可实现跨语言音色克隆,支持17种语言。
语音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一个基于流匹配的语音合成模型,专注于流畅且忠实的语音合成,特别适用于童话讲述等场景。
语音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
语音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基于LibriTTS数据集微调的SpeechT5语音合成(文本转语音)模型,支持高质量的文本转语音转换。
语音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari实验室开发的16亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调控制,并能生成非语言交流内容。
语音合成
Safetensors
英语
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame开发的10亿参数规模语音生成模型,可根据文本和音频输入生成RVQ音频编码
语音合成
Safetensors
英语
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一个开放权重的小型但功能强大的文本转语音(TTS)模型系列,新增了来自专业数据集的100名中文说话人数据。
语音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多语言印度语言扩展版本,支持21种语言,包括多种印度语言和英语。
语音合成
Transformers

支持多种语言
I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
语音合成
Transformers

支持多种语言
B
suno
35.72k
1,326
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文