模型介绍
内容详情
替代品
模型简介
该模型是一个高质量的日语语音合成模型,能够将日文文本转换为自然流畅的语音输出。
模型特点
高质量语音合成
基于VITS架构,能够生成自然流畅的日语语音
端到端训练
采用端到端的训练方式,简化了传统语音合成的复杂流程
对抗学习
结合生成对抗网络(GAN)进行训练,提高语音质量
模型能力
日语文本转语音
高质量语音合成
端到端语音生成
使用案例
语音助手
日语语音助手
为日语语音助手提供自然语音输出
生成自然流畅的日语语音
有声读物
日语有声读物生成
将日语文本自动转换为有声读物
高质量的有声内容输出
标签:
- espnet
- 音频
- 文本转语音 语言: 日语 数据集:
- amadeus 许可证: cc-by-4.0
ESPnet2 TTS 模型
mio/amadeus
该模型由mio使用amadeus配方在espnet中训练而成。
演示:如何在ESPnet2中使用
如果尚未完成,请先按照ESPnet安装说明进行操作。
cd espnet
git checkout d5b5ec7b2e77bd3e10707141818b7e6c57ac6b3f
pip install -e .
cd egs2/amadeus/tts1
./run.sh --skip_data_prep false --skip_train true --download_model mio/amadeus
TTS 配置
展开
配置: conf/tuning/finetune_vits.yaml
打印配置: false
日志级别: INFO
空运行: false
迭代器类型: sequence
输出目录: exp/tts_amadeus_vits_finetune_from_jsut_32_sentence
GPU数量: 1
随机种子: 777
工作线程数: 4
注意力绘图数: 3
分布式后端: nccl
分布式初始化方法: env://
分布式世界大小: null
分布式排名: null
本地排名: 0
分布式主地址: null
分布式主端口: null
分布式启动器: null
多进程分布式: false
未使用参数: true
分片DDP: false
启用CuDNN: true
CuDNN基准测试: false
CuDNN确定性: false
收集统计信息: false
写入收集的特征: false
最大训练轮数: 2000
耐心值: null
验证调度标准:
- valid
- loss
早停标准:
- valid
- loss
- min
最佳模型标准:
- - train
- total_count
- max
保留最佳模型数: 3
最佳模型平均间隔: 0
梯度裁剪: -1
梯度裁剪类型: 2.0
梯度噪声: false
梯度累积: 1
不进行前向运行: false
恢复训练: true
训练数据类型: float32
使用混合精度: false
日志间隔: 50
使用Matplotlib: true
使用TensorBoard: true
在TensorBoard中创建图: false
使用WandB: true
WandB项目: amadeus
WandB ID: null
WandB实体: null
WandB名称: null
WandB模型日志间隔: -1
检测异常: false
预训练路径: null
初始化参数:
- downloads/f3698edf589206588f58f5ec837fa516/exp/tts_train_vits_raw_phn_jaconv_pyopenjtalk_accent_with_pause/train.total_count.ave_10best.pth:tts:tts
忽略初始化不匹配: false
冻结参数: []
每轮迭代次数: null
批量大小: 20
验证批量大小: null
批量单元数: 5000000
验证批量单元数: null
训练形状文件:
- exp/tts_stats_raw_linear_spectrogram_phn_jaconv_pyopenjtalk_accent_with_pause/train/text_shape.phn
- exp/tts_stats_raw_linear_spectrogram_phn_jaconv_pyopenjtalk_accent_with_pause/train/speech_shape
验证形状文件:
- exp/tts_stats_raw_linear_spectrogram_phn_jaconv_pyopenjtalk_accent_with_pause/valid/text_shape.phn
- exp/tts_stats_raw_linear_spectrogram_phn_jaconv_pyopenjtalk_accent_with_pause/valid/speech_shape
批量类型: numel
验证批量类型: null
折叠长度:
- 150
- 204800
批量内排序: descending
批量排序: descending
多迭代器: false
分块长度: 500
分块移动比例: 0.5
缓存分块数: 1024
训练数据路径、名称和类型:
- - dump/22k/raw/train/text
- text
- text
- - dump/22k/raw/train/wav.scp
- speech
- sound
验证数据路径、名称和类型:
- - dump/22k/raw/dev/text
- text
- text
- - dump/22k/raw/dev/wav.scp
- speech
- sound
允许可变数据键: false
最大缓存大小: 0.0
最大缓存文件描述符: 32
验证最大缓存大小: null
优化器: adamw
优化器配置:
lr: 0.0001
betas:
- 0.8
- 0.99
eps: 1.0e-09
weight_decay: 0.0
调度器: exponentiallr
调度器配置:
gamma: 0.999875
优化器2: adamw
优化器2配置:
lr: 0.0001
betas:
- 0.8
- 0.99
eps: 1.0e-09
weight_decay: 0.0
调度器2: exponentiallr
调度器2配置:
gamma: 0.999875
生成器优先: false
标记列表:
- <blank>
- <unk>
- '1'
- '2'
- '0'
- '3'
- '4'
- '-1'
- '5'
- a
- o
- '-2'
- i
- '-3'
- u
- e
- k
- n
- t
- '6'
- r
- '-4'
- s
- N
- m
- pau
- '7'
- sh
- d
- g
- w
- '8'
- U
- '-5'
- I
- cl
- h
- y
- b
- '9'
- j
- ts
- ch
- '-6'
- z
- p
- '-7'
- f
- ky
- ry
- '-8'
- gy
- '-9'
- hy
- ny
- '-10'
- by
- my
- '-11'
- '-12'
- '-13'
- py
- '-14'
- '-15'
- v
- '10'
- '-16'
- '-17'
- '11'
- '-21'
- '-20'
- '12'
- '-19'
- '13'
- '-18'
- '14'
- dy
- '15'
- ty
- '-22'
- '16'
- '18'
- '19'
- '17'
- <sos/eos>
输出维度: null
模型配置: {}
使用预处理器: true
标记类型: phn
BPE模型: null
非语言符号: null
清理器: jaconv
G2P: pyopenjtalk_accent_with_pause
特征提取: linear_spectrogram
特征提取配置:
n_fft: 1024
hop_length: 256
win_length: null
标准化: null
标准化配置: {}
TTS: vits
TTS配置:
生成器类型: vits_generator
生成器参数:
隐藏通道数: 192
说话人数量: -1
全局通道数: -1
分段大小: 32
文本编码器注意力头数: 2
文本编码器FFN扩展: 4
文本编码器块数: 6
文本编码器位置感知层类型: conv1d
文本编码器位置感知卷积核大小: 3
文本编码器位置编码层类型: rel_pos
文本编码器自注意力层类型: rel_selfattn
文本编码器激活类型: swish
文本编码器归一化前: true
文本编码器丢弃率: 0.1
文本编码器位置丢弃率: 0.0
文本编码器注意力丢弃率: 0.1
在文本编码器中使用macaron风格: true
在文本编码器中使用conformer卷积: false
文本编码器conformer核大小: -1
解码器核大小: 7
解码器通道数: 512
解码器上采样比例:
- 8
- 8
- 2
- 2
解码器上采样核大小:
- 16
- 16
- 4
- 4
解码器残差块核大小:
- 3
- 7
- 11
解码器残差块膨胀率:
- - 1
- 3
- 5
- - 1
- 3
- 5
- - 1
- 3
- 5
在解码器中使用权重归一化: true
后验编码器核大小: 5
后验编码器层数: 16
后验编码器堆叠数: 1
后验编码器基础膨胀率: 1
后验编码器丢弃率: 0.0
在后验编码器中使用权重归一化: true
流数量: 4
流核大小: 5
流基础膨胀率: 1
流层数: 4
流丢弃率: 0.0
在流中使用权重归一化: true
在流中仅使用均值: true
随机时长预测器核大小: 3
随机时长预测器丢弃率: 0.5
随机时长预测器流数: 4
随机时长预测器DDS卷积层数: 3
词汇量: 85
辅助通道数: 513
判别器类型: hifigan_multi_scale_multi_period_discriminator
判别器参数:
尺度数: 1
尺度下采样池化: AvgPool1d
尺度下采样池化参数:
核大小: 4
步长: 2
填充: 2
尺度判别器参数:
输入通道数: 1
输出通道数: 1
核大小:
- 15
- 41
- 5
- 3
通道数: 128
最大下采样通道数: 1024
最大组数: 16
偏置: true
下采样比例:
- 2
- 2
- 4
- 4
- 1
非线性激活: LeakyReLU
非线性激活参数:
负斜率: 0.1
使用权重归一化: true
使用谱归一化: false
遵循官方归一化: false
周期数:
- 2
- 3
- 5
- 7
- 11
周期判别器参数:
输入通道数: 1
输出通道数: 1
核大小:
- 5
- 3
通道数: 32
下采样比例:
- 3
- 3
- 3
- 3
- 1
最大下采样通道数: 1024
偏置: true
非线性激活: LeakyReLU
非线性激活参数:
负斜率: 0.1
使用权重归一化: true
使用谱归一化: false
生成器对抗损失参数:
按判别器平均: false
损失类型: mse
判别器对抗损失参数:
按判别器平均: false
损失类型: mse
特征匹配损失参数:
按判别器平均: false
按层平均: false
包含最终输出: true
Mel损失参数:
采样率: 22050
FFT点数: 1024
帧移: 256
帧长: null
窗函数: hann
Mel频带数: 80
最小频率: 0
最大频率: null
对数底数: null
对抗损失权重: 1.0
Mel损失权重: 45.0
特征匹配损失权重: 2.0
时长损失权重: 1.0
KL散度权重: 1.0
采样率: 22050
缓存生成器输出: true
音高提取: null
音高提取配置: {}
音高标准化: null
音高标准化配置: {}
能量提取: null
能量提取配置: {}
能量标准化: null
能量标准化配置: {}
必需项:
- output_dir
- token_list
版本: '202207'
分布式: false
引用ESPnet
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Yalta and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
或arXiv:
@misc{watanabe2018espnet,
title={ESPnet: End-to-End Speech Processing Toolkit},
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Yalta and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
year={2018},
eprint={1804.00015},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Kokoro 82M
Apache-2.0
Kokoro是一款拥有8200万参数的开源文本转语音(TTS)模型,以其轻量级架构和高音质著称,同时具备快速和成本效益高的特点。
语音合成
英语
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的语音生成模型,仅需6秒音频片段即可实现跨语言音色克隆,支持17种语言。
语音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一个基于流匹配的语音合成模型,专注于流畅且忠实的语音合成,特别适用于童话讲述等场景。
语音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
语音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基于LibriTTS数据集微调的SpeechT5语音合成(文本转语音)模型,支持高质量的文本转语音转换。
语音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari实验室开发的16亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调控制,并能生成非语言交流内容。
语音合成
Safetensors
英语
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame开发的10亿参数规模语音生成模型,可根据文本和音频输入生成RVQ音频编码
语音合成
Safetensors
英语
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一个开放权重的小型但功能强大的文本转语音(TTS)模型系列,新增了来自专业数据集的100名中文说话人数据。
语音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多语言印度语言扩展版本,支持21种语言,包括多种印度语言和英语。
语音合成
Transformers

支持多种语言
I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
语音合成
Transformers

支持多种语言
B
suno
35.72k
1,326
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文