许可证:Apache-2.0
语言:
- 英语
基础模型:
- yl4579/StyleTTS2-LJSpeech
任务标签:文本转语音
Kokoro 是一款拥有8200万参数的开源权重TTS模型。尽管架构轻量,其音质却能与更大模型媲美,同时具备显著的速度优势和成本效益。通过Apache许可的权重,Kokoro可部署于从生产环境到个人项目的任何场景。
⬆️ Kokoro已升级至v1.0! 查看版本发布。
✨ 现在可通过 pip install kokoro
安装!参见使用指南。
版本发布
模型版本 |
发布日期 |
训练数据量 |
支持语言/音色 |
SHA256校验码 |
v0.19 |
2024年12月25日 |
<100小时 |
1种语言/10种音色 |
3b0c392f |
v1.0 |
2025年1月27日 |
数百小时 |
8种语言/54种音色 |
496dba11 |
训练成本 |
v0.19 |
v1.0 |
总计 |
A100 80GB GPU小时数 |
500 |
500 |
1000 |
平均每小时费用 |
$0.80/小时 |
$1.20/小时 |
$1/小时 |
折合美元 |
$400 |
$600 |
$1000 |
使用指南
通过 pip install kokoro
安装推理库,代码库位于 https://github.com/hexgrad/kokoro
可在Google Colab运行以下代码。试听样本。
!pip install -q kokoro>=0.3.4 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
pipeline = KPipeline(lang_code='a')
text = '''
(此处保留英文示例文本,实际翻译时需替换为对应中文内容)
'''
generator = pipeline(
text, voice='af_heart',
speed=1, split_pattern=r'\n+'
)
for i, (gs, ps, audio) in enumerate(generator):
print(i)
print(gs)
print(ps)
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000)
底层技术依赖 misaki
音素转换库,代码库位于 https://github.com/hexgrad/misaki
模型参数
架构特性:
- 基于StyleTTS 2论文:https://arxiv.org/abs/2306.07691
- 采用ISTFTNet:https://arxiv.org/abs/2203.02395
- 纯解码器结构:不含扩散模型,未发布编码器
架构设计: Li et al @ https://github.com/yl4579/StyleTTS2
训练负责人: Discord用户@rzvzn
支持语言: 美式英语、英式英语、法语、印地语
模型SHA256哈希值: 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4
训练细节
数据来源: 仅使用允许商用/无版权音频数据及IPA音素标签训练,包括:
- 公有领域音频
- Apache/MIT等许可音频
- 大型厂商闭源TTS模型生成的合成音频[1]
[1] 参考美国版权局政策:https://copyright.gov/ai/ai_policy_guidance.pdf
注:未使用开源TTS模型或"定制语音克隆"生成的合成音频
总数据集规模: 数百小时音频
总训练成本: 约1000美元(1000小时A100 80GB显存)
创作共用许可声明
以下CC BY许可音频被用于Kokoro v1.0训练:
致谢
- 🛠️ 感谢@yl4579设计StyleTTS 2架构
- 🏆 感谢@Pendrokar将Kokoro列入TTS竞技场
- 📊 感谢所有合成训练数据贡献者
- ❤️ 特别鸣谢算力赞助方
- 👾 Discord社区:https://discord.gg/QuGxSWBfQy
- 🪽 "Kokoro"在日语中意为"心"或"灵魂",也是《终结者》系列AI角色名
