许可证:apache-2.0
语言:
- 英语
基础模型:
- yl4579/StyleTTS2-LJSpeech
任务标签:文本转语音
Kokoro 是一款拥有8200万参数的开源权重文本转语音(TTS)模型。尽管其架构轻量,却能提供与大型模型相媲美的音质,同时显著更快且更具成本效益。凭借Apache许可的权重,Kokoro可部署于从生产环境到个人项目的任何场景。
🐈 GitHub: https://github.com/hexgrad/kokoro
🚀 演示: https://hf.co/spaces/hexgrad/Kokoro-TTS
[!注意]
截至2025年4月,Kokoro通过API服务的市场价为每百万字符文本输入低于1美元,或每小时音频输出低于0.06美元。(平均每1000字符输入约对应1分钟输出。)数据来源:ArtificialAnalysis/Replicate显示每百万字符65美分 和 DeepInfra显示每百万字符80美分。
这是Apache许可的模型,Kokoro已在众多项目和商业API中部署。我们欢迎在实际应用场景中使用该模型。
[!警告]
类似kokorottsai_com(存档:https://archive.ph/nRRnk)和kokorotts_net(存档:https://archive.ph/60opa)的虚假网站很可能是打着流行模型旗号的骗局。
任何根域名包含"kokoro"的网站(如kokorottsai_com、kokorotts_net)均不属于本模型页面或其作者,亦无任何关联,试图暗示关联的行为均为危险信号。
版本发布
模型 |
发布日期 |
训练数据 |
支持语言及音色 |
SHA256 |
v1.0 |
2025年1月27日 |
数百小时 |
8种语言54种音色 |
496dba11 |
v0.19 |
2024年12月25日 |
<100小时 |
1种语言10种音色 |
3b0c392f |
训练成本 |
v0.19 |
v1.0 |
总计 |
A100 80GB GPU小时数 |
500 |
500 |
1000 |
平均每小时费率 |
$0.80/小时 |
$1.20/小时 |
$1/小时 |
折合美元 |
$400 |
$600 |
$1000 |
使用指南
您可在Google Colab运行以下基础单元。试听示例。更多语言及细节请参阅高级用法。
!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
[Kokoro](/kˈOkəɹO/) 是一款拥有8200万参数的开源权重TTS模型。尽管其架构轻量,却能提供与大型模型相媲美的音质,同时显著更快且更具成本效益。凭借Apache许可的权重,[Kokoro](/kˈOkəɹO/)可部署于从生产环境到个人项目的任何场景。
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
print(i, gs, ps)
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000)
底层实现中,kokoro
使用了misaki
——一个G2P转换库,详见 https://github.com/hexgrad/misaki
模型参数
架构:
- StyleTTS 2: https://arxiv.org/abs/2306.07691
- ISTFTNet: https://arxiv.org/abs/2203.02395
- 仅解码器:不含扩散模型,不发布编码器
架构设计: Li等 @ https://github.com/yl4579/StyleTTS2
训练者: Discord用户@rzvzn
支持语言: 多语种
模型SHA256哈希值: 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4
训练详情
数据: Kokoro仅使用允许/无版权音频数据及国际音标(IPA)音素标签训练。允许/无版权音频示例包括:
- 公有领域音频
- Apache、MIT等许可的音频
- 大型厂商闭源TTS模型生成的合成音频[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[注] 未使用开源TTS模型或"定制语音克隆"生成的合成音频
总数据集规模: 数百小时音频
总训练成本: 约1000美元(1000小时A100 80GB显存)
知识共享署名
以下CC BY许可音频被用于Kokoro v1.0的训练数据集。
致谢
- 🛠️ 感谢@yl4579设计StyleTTS 2架构
- 🏆 感谢@Pendrokar将Kokoro列入TTS竞技场
- 📊 感谢所有贡献合成训练数据的人士
- ❤️ 特别鸣谢所有算力赞助方
- 👾 Discord服务器:https://discord.gg/QuGxSWBfQy
- 🪽 "Kokoro"是日语"心"或"精神"之意,也是《终结者》系列中AI的名字
