Kokoro-82M开源文本转语音模型 - 轻量架构高音质，快速且成本低！

首页

Kokoro 82M

由 hexgrad 开发

Kokoro是一款拥有8200万参数的开源文本转语音（TTS）模型，以其轻量级架构和高音质著称，同时具备快速和成本效益高的特点。

语音合成英语开源协议:Apache-2.0 #轻量级TTS #多语言音色 #低成本部署

下载量 2.0M

发布时间 : 12/26/2024

模型简介

Kokoro是一款基于Apache许可的文本转语音模型，能够生成高质量的语音输出，适用于从生产环境到个人项目的各种场景。

模型特点

轻量级架构

尽管参数规模较小，但能提供与大型模型相媲美的音质。

高效成本

每百万字符文本输入低于1美元，每小时音频输出低于0.06美元。

多语言支持

支持8种语言和54种音色，适用于多样化的应用场景。

开源许可

采用Apache许可，允许自由部署于商业和个人项目。

模型能力

文本转语音

多语言语音合成

高效音频生成

使用案例

商业应用

语音助手

为商业应用提供高质量的语音输出。

高效且成本低廉的语音合成方案。

有声读物

生成自然流畅的有声读物内容。

高质量的多语言语音输出。

个人项目

个人语音助手

为个人项目提供定制化的语音输出。

轻量级且易于部署的解决方案。

🚀 Kokoro - 轻量级高效文本转语音模型

Kokoro是一个拥有8200万参数的开源权重文本转语音（TTS）模型。尽管架构轻量，但它能提供与大型模型相媲美的语音质量，同时速度更快、成本更低。其权重采用Apache许可证，可广泛应用于生产环境和个人项目。

🐈 GitHub：https://github.com/hexgrad/kokoro

🚀 演示地址：https://hf.co/spaces/hexgrad/Kokoro-TTS

🚀 快速开始

你可以在 Google Colab 上运行以下基础代码。点击聆听示例语音。如需了解更多语言和详细信息，请查看高级用法。

!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
    print(i, gs, ps)
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000)

在底层，kokoro 使用了 misaki 这个G2P库，其代码位于 https://github.com/hexgrad/misaki

✨ 主要特性

轻量高效：仅8200万参数，却能提供与大型模型相媲美的语音质量，且速度更快、成本更低。
开源许可：采用Apache许可证，可自由用于生产环境和个人项目。
多语言支持：支持多种语言和丰富的语音。

📦 安装指南

在 Google Colab 上运行以下命令进行安装：

!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1

💻 使用示例

基础用法

# 你可以在 [Google Colab](https://colab.research.google.com/) 上运行这个基础代码块。[聆听示例语音](https://huggingface.co/hexgrad/Kokoro-82M/blob/main/SAMPLES.md)。
# 更多语言和详细信息请参考 [高级用法](https://github.com/hexgrad/kokoro?tab=readme-ov-file#advanced-usage)。
!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''
[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, [Kokoro](/kˈOkəɹO/) can be deployed anywhere from production environments to personal projects.
'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
    print(i, gs, ps)
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000)

高级用法

如需了解更多语言和详细信息，请查看高级用法。

📚 详细文档

版本发布

模型	发布时间	训练数据	语言和语音数量	SHA256哈希值
v1.0	2025年1月27日	数百小时	8种语言和54种语音	`496dba11`
v0.19	2024年12月25日	<100小时	1种语言和10种语音	`3b0c392f`

训练成本	v0.19	v1.0	总计
A100 80GB GPU小时数	500	500	1000
平均每小时费率	$0.80/小时	$1.20/小时	$1/小时
美元成本	$400	$600	$1000

模型信息

属性	详情
模型架构	- StyleTTS 2: https://arxiv.org/abs/2306.07691 - ISTFTNet: https://arxiv.org/abs/2203.02395 - 仅解码器：无扩散，无编码器发布
架构设计	Li等人 @ https://github.com/yl4579/StyleTTS2
训练人员	`@rzvzn`（Discord）
支持语言	多种
模型SHA256哈希值	`496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4`

训练详情

训练数据：Kokoro仅使用许可/无版权音频数据和国际音标（IPA）音素标签进行训练。许可/无版权音频示例包括：
- 公共领域音频
- 采用Apache、MIT等许可证的音频
- 大型供应商的封闭^[2] TTS模型生成的合成音频^[1]
  [1] https://copyright.gov/ai/ai_policy_guidance.pdf
  [2] 不使用开源TTS模型或“自定义语音克隆”生成的合成音频
总数据集大小：数百小时的音频
总训练成本：使用A100 80GB显存GPU训练1000小时，约$1000

知识共享归因

以下采用CC BY许可的音频是训练Kokoro v1.0所用数据集的一部分。

音频数据	使用时长	许可证	加入训练集时间
Koniwa `tnc`	<1小时	CC BY 3.0	v0.19 / 2024年11月22日
SIWIS	<11小时	CC BY 4.0	v0.19 / 2024年11月22日

致谢

🛠️ 感谢 @yl4579 设计了StyleTTS 2架构。
🏆 感谢 @Pendrokar 将Kokoro引入TTS Spaces Arena。
📊 感谢所有贡献合成训练数据的人员。
❤️ 特别感谢所有计算资源赞助者。
👾 Discord服务器：https://discord.gg/QuGxSWBfQy
🪽 Kokoro是一个日语词汇，意为“心”或“精神”。它也是《终结者》系列中的一个AI名称。

📄 许可证

本项目采用Apache-2.0许可证。

⚠️ 重要提示

截至2025年4月，通过API使用Kokoro的市场价格为每百万字符文本输入低于1美元，或每小时音频输出低于0.06美元。（平均而言，1000字符输入约为1分钟输出。）参考来源：ArtificialAnalysis/Replicate，每百万字符0.65美元和 DeepInfra，每百万字符0.80美元。

这是一个采用Apache许可证的模型，Kokoro已在众多项目和商业API中部署。我们欢迎在实际用例中部署该模型。

⚠️ 重要提示

像kokorottsai_com（快照：https://archive.ph/nRRnk）和kokorotts_net（快照：https://archive.ph/60opa）这样的虚假网站可能是以流行模型之名进行的诈骗。

任何根域名中包含“kokoro”的网站（如kokorottsai_com、kokorotts_net）并非由本模型页面或其作者所有，也与之无关联，任何试图暗示关联的行为都应引起警惕。