模型介绍
内容详情
替代品
模型简介
这是一个基于JETS架构的文本转语音模型,能够将英文文本转换为自然语音。模型采用对抗训练策略,结合了Transformer编码器和HiFiGAN判别器,生成高质量的语音输出。
模型特点
高质量语音合成
采用JETS架构结合HiFiGAN判别器,生成自然流畅的语音
对抗训练策略
使用生成对抗网络(GAN)训练方法,提高语音质量
端到端训练
从文本直接到语音波形的端到端训练流程
多尺度判别器
使用多尺度多周期判别器(Multi-Scale Multi-Period Discriminator)提升生成质量
模型能力
英文文本转语音
高质量语音合成
语音特征控制(音高、能量)
使用案例
语音合成应用
有声读物生成
将电子书文本转换为自然语音
生成接近人类朗读的语音
语音助手
为虚拟助手提供语音输出能力
自然流畅的对话语音
标签:
- espnet
- 音频
- 文本转语音 语言: 英文 数据集:
- ljspeech 许可证: cc-by-4.0
ESPnet2 TTS 模型
imdanboy/jets
此模型由 imdanboy 使用 espnet 中的 ljspeech 配方训练而成。
演示:如何在 ESPnet2 中使用
cd espnet
git checkout c173c30930631731e6836c274a591ad571749741
pip install -e .
cd egs2/ljspeech/tts1
./run.sh --skip_data_prep false --skip_train true --download_model imdanboy/jets
TTS 配置
展开
配置: conf/tuning/train_jets.yaml
打印配置: false
日志级别: INFO
空运行: false
迭代器类型: sequence
输出目录: exp/tts_train_jets_raw_phn_tacotron_g2p_en_no_space
GPU数量: 1
随机种子: 777
工作线程数: 4
注意力绘图数量: 3
分布式后端: nccl
分布式初始化方法: env://
分布式世界大小: 4
分布式排名: 0
本地排名: 0
分布式主地址: localhost
分布式主端口: 39471
分布式启动器: null
多进程分布式: true
未使用参数: true
分片DDP: false
启用CuDNN: true
CuDNN基准测试: false
CuDNN确定性: false
收集统计信息: false
写入收集的特征: false
最大周期数: 1000
耐心值: null
验证调度标准:
- valid
- loss
早停标准:
- valid
- loss
- min
最佳模型标准:
- - valid
- text2mel_loss
- min
- - train
- text2mel_loss
- min
- - train
- total_count
- max
保留最佳模型数: 5
最佳平均间隔: 0
梯度裁剪: -1
梯度裁剪类型: 2.0
梯度噪声: false
累积梯度: 1
不运行前向传播: false
恢复训练: true
训练数据类型: float32
使用混合精度: false
日志间隔: 50
使用Matplotlib: true
使用TensorBoard: true
使用WandB: false
WandB项目: null
WandB ID: null
WandB实体: null
WandB名称: null
WandB模型日志间隔: -1
检测异常: false
预训练路径: null
初始化参数: []
忽略初始化不匹配: false
冻结参数: []
每周期迭代次数: 1000
批量大小: 20
验证批量大小: null
批量箱数: 3000000
验证批量箱数: null
训练形状文件:
- exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/train/text_shape.phn
- exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/train/speech_shape
验证形状文件:
- exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/valid/text_shape.phn
- exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/valid/speech_shape
批量类型: numel
验证批量类型: null
折叠长度:
- 150
- 204800
批量内排序: descending
批量排序: descending
多迭代器: false
块长度: 500
块移动比例: 0.5
缓存块数: 1024
训练数据路径、名称和类型:
- - dump/raw/tr_no_dev/text
- text
- text
- - dump/raw/tr_no_dev/wav.scp
- speech
- sound
- - exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/train/collect_feats/pitch.scp
- pitch
- npy
- - exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/train/collect_feats/energy.scp
- energy
- npy
验证数据路径、名称和类型:
- - dump/raw/dev/text
- text
- text
- - dump/raw/dev/wav.scp
- speech
- sound
- - exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/valid/collect_feats/pitch.scp
- pitch
- npy
- - exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/valid/collect_feats/energy.scp
- energy
- npy
允许可变数据键: false
最大缓存大小: 0.0
最大缓存文件描述符: 32
验证最大缓存大小: null
优化器: adamw
优化器配置:
lr: 0.0002
betas:
- 0.8
- 0.99
eps: 1.0e-09
weight_decay: 0.0
调度器: exponentiallr
调度器配置:
gamma: 0.999875
优化器2: adamw
优化器2配置:
lr: 0.0002
betas:
- 0.8
- 0.99
eps: 1.0e-09
weight_decay: 0.0
调度器2: exponentiallr
调度器2配置:
gamma: 0.999875
生成器优先: true
标记列表:
- <blank>
- <unk>
- AH0
- N
- T
- D
- S
- R
- L
- DH
- K
- Z
- IH1
- IH0
- M
- EH1
- W
- P
- AE1
- AH1
- V
- ER0
- F
- ','
- AA1
- B
- HH
- IY1
- UW1
- IY0
- AO1
- EY1
- AY1
- .
- OW1
- SH
- NG
- G
- ER1
- CH
- JH
- Y
- AW1
- TH
- UH1
- EH2
- OW0
- EY2
- AO0
- IH2
- AE2
- AY2
- AA2
- UW0
- EH0
- OY1
- EY0
- AO2
- ZH
- OW2
- AE0
- UW2
- AH2
- AY0
- IY2
- AW2
- AA0
- ''''
- ER2
- UH2
- '?'
- OY2
- '!'
- AW0
- UH0
- OY0
- ..
- <sos/eos>
输出维度: null
模型配置: {}
使用预处理器: true
标记类型: phn
BPE模型: null
非语言符号: null
清洁器: tacotron
G2P: g2p_en_no_space
特征提取: fbank
特征提取配置:
n_fft: 1024
hop_length: 256
win_length: null
fs: 22050
fmin: 80
fmax: 7600
n_mels: 80
归一化: global_mvn
归一化配置:
统计文件: exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/train/feats_stats.npz
TTS: jets
TTS配置:
生成器类型: jets_generator
生成器参数:
adim: 256
aheads: 2
elayers: 4
eunits: 1024
dlayers: 4
dunits: 1024
positionwise_layer_type: conv1d
positionwise_conv_kernel_size: 3
duration_predictor_layers: 2
duration_predictor_chans: 256
duration_predictor_kernel_size: 3
use_masking: true
encoder_normalize_before: true
decoder_normalize_before: true
encoder_type: transformer
decoder_type: transformer
conformer_rel_pos_type: latest
conformer_pos_enc_layer_type: rel_pos
conformer_self_attn_layer_type: rel_selfattn
conformer_activation_type: swish
use_macaron_style_in_conformer: true
use_cnn_in_conformer: true
conformer_enc_kernel_size: 7
conformer_dec_kernel_size: 31
init_type: xavier_uniform
transformer_enc_dropout_rate: 0.2
transformer_enc_positional_dropout_rate: 0.2
transformer_enc_attn_dropout_rate: 0.2
transformer_dec_dropout_rate: 0.2
transformer_dec_positional_dropout_rate: 0.2
transformer_dec_attn_dropout_rate: 0.2
pitch_predictor_layers: 5
pitch_predictor_chans: 256
pitch_predictor_kernel_size: 5
pitch_predictor_dropout: 0.5
pitch_embed_kernel_size: 1
pitch_embed_dropout: 0.0
stop_gradient_from_pitch_predictor: true
energy_predictor_layers: 2
energy_predictor_chans: 256
energy_predictor_kernel_size: 3
energy_predictor_dropout: 0.5
energy_embed_kernel_size: 1
energy_embed_dropout: 0.0
stop_gradient_from_energy_predictor: false
generator_out_channels: 1
generator_channels: 512
generator_global_channels: -1
generator_kernel_size: 7
generator_upsample_scales:
- 8
- 8
- 2
- 2
generator_upsample_kernel_sizes:
- 16
- 16
- 4
- 4
generator_resblock_kernel_sizes:
- 3
- 7
- 11
generator_resblock_dilations:
- - 1
- 3
- 5
- - 1
- 3
- 5
- - 1
- 3
- 5
generator_use_additional_convs: true
generator_bias: true
generator_nonlinear_activation: LeakyReLU
generator_nonlinear_activation_params:
negative_slope: 0.1
generator_use_weight_norm: true
segment_size: 64
idim: 78
odim: 80
判别器类型: hifigan_multi_scale_multi_period_discriminator
判别器参数:
scales: 1
scale_downsample_pooling: AvgPool1d
scale_downsample_pooling_params:
kernel_size: 4
stride: 2
padding: 2
scale_discriminator_params:
in_channels: 1
out_channels: 1
kernel_sizes:
- 15
- 41
- 5
- 3
channels: 128
max_downsample_channels: 1024
max_groups: 16
bias: true
downsample_scales:
- 2
- 2
- 4
- 4
- 1
nonlinear_activation: LeakyReLU
nonlinear_activation_params:
negative_slope: 0.1
use_weight_norm: true
use_spectral_norm: false
follow_official_norm: false
periods:
- 2
- 3
- 5
- 7
- 11
period_discriminator_params:
in_channels: 1
out_channels: 1
kernel_sizes:
- 5
- 3
channels: 32
downsample_scales:
- 3
- 3
- 3
- 3
- 1
max_downsample_channels: 1024
bias: true
nonlinear_activation: LeakyReLU
nonlinear_activation_params:
negative_slope: 0.1
use_weight_norm: true
use_spectral_norm: false
生成器对抗损失参数:
average_by_discriminators: false
loss_type: mse
判别器对抗损失参数:
average_by_discriminators: false
loss_type: mse
特征匹配损失参数:
average_by_discriminators: false
average_by_layers: false
include_final_outputs: true
mel损失参数:
fs: 22050
n_fft: 1024
hop_length: 256
win_length: null
window: hann
n_mels: 80
fmin: 0
fmax: null
log_base: null
lambda_adv: 1.0
lambda_mel: 45.0
lambda_feat_match: 2.0
lambda_var: 1.0
lambda_align: 2.0
采样率: 22050
缓存生成器输出: true
音高提取: dio
音高提取配置:
reduction_factor: 1
use_token_averaged_f0: false
fs: 22050
n_fft: 1024
hop_length: 256
f0max: 400
f0min: 80
音高归一化: global_mvn
音高归一化配置:
统计文件: exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/train/pitch_stats.npz
能量提取: energy
能量提取配置:
reduction_factor: 1
use_token_averaged_energy: false
fs: 22050
n_fft: 1024
hop_length: 256
win_length: null
能量归一化: global_mvn
能量归一化配置:
统计文件: exp/tts_stats_raw_phn_tacotron_g2p_en_no_space/train/energy_stats.npz
必需项:
- output_dir
- token_list
版本: '202204'
分布式: true
引用 ESPnet
@inproceedings{watanabe2018espnet,
作者={Shinji Watanabe 和 Takaaki Hori 和 Shigeki Karita 和 Tomoki Hayashi 和 Jiro Nishitoba 和 Yuya Unno 和 Nelson Yalta 和 Jahn Heymann 和 Matthew Wiesner 和 Nanxin Chen 和 Adithya Renduchintala 和 Tsubasa Ochiai},
标题={{ESPnet}: 端到端语音处理工具包},
年份={2018},
书籍标题={Interspeech 会议论文集},
页码={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
标题={{Espnet-TTS}: 统一、可复现且可集成的开源端到端文本转语音工具包},
作者={Hayashi, Tomoki 和 Yamamoto, Ryuichi 和 Inoue, Katsuki 和 Yoshimura, Takenori 和 Watanabe, Shinji 和 Toda, Tomoki 和 Takeda, Kazuya 和 Zhang, Yu 和 Tan, Xu},
书籍标题={IEEE 国际声学、语音与信号处理会议 (ICASSP) 论文集},
页码={7654--7658},
年份={2020},
组织={IEEE}
}
或 arXiv:
@misc{watanabe2018espnet,
标题={ESPnet: 端到端语音处理工具包},
作者={Shinji Watanabe 和 Takaaki Hori 和 Shigeki Karita 和 Tomoki Hayashi 和 Jiro Nishitoba 和 Yuya Unno 和 Nelson Yalta 和 Jahn Heymann 和 Matthew Wiesner 和 Nanxin Chen 和 Adithya Renduchintala 和 Tsubasa Ochiai},
年份={2018},
eprint={1804.00015},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Kokoro 82M
Apache-2.0
Kokoro是一款拥有8200万参数的开源文本转语音(TTS)模型,以其轻量级架构和高音质著称,同时具备快速和成本效益高的特点。
语音合成
英语
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的语音生成模型,仅需6秒音频片段即可实现跨语言音色克隆,支持17种语言。
语音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一个基于流匹配的语音合成模型,专注于流畅且忠实的语音合成,特别适用于童话讲述等场景。
语音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
语音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基于LibriTTS数据集微调的SpeechT5语音合成(文本转语音)模型,支持高质量的文本转语音转换。
语音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari实验室开发的16亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调控制,并能生成非语言交流内容。
语音合成
Safetensors
英语
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame开发的10亿参数规模语音生成模型,可根据文本和音频输入生成RVQ音频编码
语音合成
Safetensors
英语
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一个开放权重的小型但功能强大的文本转语音(TTS)模型系列,新增了来自专业数据集的100名中文说话人数据。
语音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多语言印度语言扩展版本,支持21种语言,包括多种印度语言和英语。
语音合成
Transformers

支持多种语言
I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
语音合成
Transformers

支持多种语言
B
suno
35.72k
1,326
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文