许可协议:apache-2.0
基础模型:
- hexgrad/Kokoro-82M
任务标签:文本转语音
🐈 GitHub: https://github.com/hexgrad/kokoro
Kokoro 是一个开放权重的小型但功能强大的文本转语音(TTS)模型系列。
本模型是通过短期训练得到的成果,新增了来自专业数据集的100名中文说话人数据。这些中文数据由专业数据集公司「龙猫数据」免费且无偿提供。感谢你们让这一模型成为可能。
此外,训练中还加入了一些众包合成的英语数据:[1]
- 1小时的Maple(美国女性)
- 1小时的Sol(另一位美国女性)
- 1小时的Vale(年长英国女性)
由于移除了许多原有声音,本版本并非严格意义上的升级版,但提前发布以收集对新声音和分词方案的反馈。除中文数据集和3小时英语数据外,其余数据均未参与本次训练。目标是推动模型系列发展,并最终恢复部分被移除的声音。
根据美国版权局现行指引,合成数据通常不受版权保护。由于这些合成数据来自众包,模型训练者不受任何服务条款约束。采用Apache许可证的模型也符合OpenAI关于广泛传播AI效益的使命。若您愿助力此目标,可考虑贡献允许使用的音频数据。
[1] 龙猫数据未参与英语合成数据的众包工作
[2] 以下中文内容为机器翻译
Kokoro是一系列体积小巧但性能强劲的TTS模型。
该模型通过短期训练而成,整合了专业数据集中的100名中文说话人。中文数据由「龙猫数据」公司慷慨授权使用。特此致谢。
训练数据还包含众包合成的英语内容:
- 1小时美国女性Maple
- 1小时美国女性Sol
- 1小时英国年长女性Vale
因删减较多声音,本版非严格升级版,旨在收集新声音与分词方案的反馈。除中文数据及3小时英语数据外,其余数据均未用于本次训练。最终目标是完善模型系列并恢复部分被移除声音。
版本发布
模型版本 |
发布日期 |
训练数据量 |
支持语言/声音 |
SHA256 |
v1.1-zh |
2025年2月26日 |
>100小时 |
2种语言/103个声音 |
b1d8410f |
v1.0 |
2025年1月27日 |
数百小时 |
8种语言/54个声音 |
496dba11 |
v0.19 |
2024年12月25日 |
<100小时 |
1种语言/10个声音 |
3b0c392f |
训练成本 |
v0.19 |
v1.0 |
v1.1-zh |
总计 |
A100 80GB GPU小时数 |
500 |
500 |
120 |
1120 |
平均每小时成本 |
$0.80/小时 |
$1.20/小时 |
$0.90/小时 |
|
折合美元 |
$400 |
$600 |
$110 |
$1110 |
使用指南
可在Google Colab运行以下代码:
!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))
!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))
待优化:类似https://hf.co/hexgrad/Kokoro-82M#usage的用法,但构建KModel
或KPipeline
时应传入repo_id='hexgrad/Kokoro-82M-v1.1-zh'
。参考make_en.py和make_zh.py。
模型参数
架构信息:
架构设计: Li et al @ StyleTTS2项目
训练者: Discord用户@rzvzn
支持语言: 英语、中文
模型SHA256哈希值: b1d8410fa44dfb5c15471fd6c4225ea6b4e9ac7fa03c98e8bea47a9928476e2b
致谢声明
待补充:类似https://hf.co/hexgrad/Kokoro-82M#acknowledgements的内容
