许可协议:Apache-2.0
语言:
- 英语
基础模型:
- yl4579/StyleTTS2-LJSpeech
任务标签:文本转语音
Kokoro 是一款拥有8200万参数的开源权重文本转语音模型。尽管其架构轻量,却能提供与大型模型相媲美的音质,同时显著提升速度和成本效益。通过Apache许可的权重,Kokoro可部署于从生产环境到个人项目的任何场景。
⬆️ Kokoro已升级至v1.0版本! 查看版本发布。
🚀 无代码演示:https://hf.co/spaces/hexgrad/Kokoro-TTS
✨ 现在可通过 pip install kokoro
安装!参见使用指南。
版本发布
模型 |
发布日期 |
训练数据 |
支持语言与音色 |
SHA256 |
v1.0 |
2025年1月27日 |
数百小时 |
8种语言 & 54种音色 |
496dba11 |
v0.19 |
2024年12月25日 |
<100小时 |
1种语言 & 10种音色 |
3b0c392f |
训练成本 |
v0.19 |
v1.0 |
总计 |
A100 80GB GPU小时数 |
500 |
500 |
1000 |
平均每小时费用 |
$0.80/小时 |
$1.20/小时 |
$1/小时 |
折合美元 |
$400 |
$600 |
$1000 |
使用指南
通过 pip install kokoro
安装推理库,代码库位于 https://github.com/hexgrad/kokoro
您可以在Google Colab上运行以下代码单元。试听样本。
!pip install -q kokoro>=0.8.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
pipeline = KPipeline(lang_code='a')
text = '''
港口上方的天空呈现出电视调至无信号频道的灰白色。
"我又没在吸毒,"凯斯挤过聊天室门口的人群时听见有人说,"是我的身体产生了巨大的药物戒断反应。"
这是都市圈的口音和都市圈的笑话。聊天室是为职业流亡者开设的酒吧;你可以在这里喝上一周而听不到两句日语。
这些决定产生了巨大影响,不仅因与君士坦丁相关,更因其在许多领域的决策对未来数个世纪意义重大。核心问题之一是基督教教堂的建筑形式——当君士坦丁决定协助基督教会建造一系列宏伟建筑时,显然尚未形成纪念性教堂建筑的传统。这些教堂主要采用巴西利卡形制,即基于希腊柱廊的多功能矩形结构,在帝国多数大城市均可觅得踪迹。与古典多神教不同,基督教需要广阔的内部空间举行仪式,而巴西利卡完美契合这一需求。我们虽无从得知皇帝参与新教堂设计的程度,但很容易联想到他在罗马广场完成的世俗巴西利卡(即所谓的马克森提乌斯巴西利卡)以及可能在其仍为凯撒时于特里尔行宫旁建造的另一座巴西利卡。
[Kokoro](/kˈOkəɹO/)是拥有8200万参数的开源权重TTS模型。尽管架构轻量,其音质可比肩大型模型,同时具备更快的速度和更高的性价比。通过Apache许可的权重,[Kokoro](/kˈOkəɹO/)可部署于从生产环境到个人项目的任何场景。
'''
generator = pipeline(
text, voice='af_heart',
speed=1, split_pattern=r'\n+'
)
for i, (gs, ps, audio) in enumerate(generator):
print(i)
print(gs)
print(ps)
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000)
底层实现中,kokoro
使用音素转换库misaki
,代码库位于 https://github.com/hexgrad/misaki
模型参数
架构:
- StyleTTS 2: https://arxiv.org/abs/2306.07691
- ISTFTNet: https://arxiv.org/abs/2203.02395
- 仅解码器:不含扩散模型,未发布编码器
架构设计: Li et al @ https://github.com/yl4579/StyleTTS2
训练者: Discord用户@rzvzn
支持语言: 多语种
模型SHA256哈希值: 496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4
训练详情
数据: Kokoro仅使用允许/无版权音频数据及国际音标音素标签进行训练。合规音频示例包括:
- 公有领域音频
- Apache、MIT等许可的音频
- 大型闭源TTS模型生成的合成音频[1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
注:未使用开源TTS模型或"定制语音克隆"生成的合成音频
总数据集规模: 数百小时音频
总训练成本: 约1000美元(使用A100 80GB显存运行1000小时)
知识共享署名
以下CC BY授权音频被用于Kokoro v1.0的训练集:
致谢
- 🛠️ 感谢@yl4579设计StyleTTS 2架构
- 🏆 感谢@Pendrokar将Kokoro列入TTS竞技场
- 📊 感谢所有贡献合成训练数据的人员
- ❤️ 特别鸣谢算力赞助方
- 👾 Discord服务器:https://discord.gg/QuGxSWBfQy
- 🪽 "Kokoro"在日语中意为"心"或"灵魂",也是《终结者》系列中AI的名字
