Kokoro-82M-v1.1-zh开源文本转语音模型 - 新增100名中文说话人数据

首页

Kokoro 82M V1.1 Zh

由 hexgrad 开发

Kokoro 是一个开放权重的小型但功能强大的文本转语音（TTS）模型系列，新增了来自专业数据集的100名中文说话人数据。

语音合成开源协议:Apache-2.0 #轻量级TTS #多说话人支持 #中英双语合成

下载量 51.56k

发布时间 : 2/27/2025

模型简介

Kokoro 是一个文本转语音（TTS）模型系列，支持英语和中文，具有小巧但功能强大的特点。

模型特点

多语言支持

支持英语和中文，新增了100名中文说话人数据。

小巧但功能强大

模型仅有8200万参数，但性能强劲。

开放权重

模型采用Apache许可证，开放权重，便于广泛使用和修改。

专业数据集

中文数据由专业数据集公司「龙猫数据」免费提供，质量有保障。

模型能力

文本转语音

多语言语音合成

支持多种说话人声音

使用案例

语音合成

中文语音合成

使用专业数据集中的100名中文说话人进行语音合成。

生成自然流畅的中文语音。

英语语音合成

支持多种英语口音和说话人声音。

生成自然流畅的英语语音。

🚀 Kokoro - 轻量强大的TTS模型系列

Kokoro是一系列体积虽小但功能强大的TTS（文本转语音）模型。该模型通过短期训练，从专业数据集中引入了100名中文使用者的数据，为语音合成带来了更多可能性。

🐈 GitHub项目地址

🚀 快速开始

你可以在 Google Colab 上运行以下代码：

!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio

!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))

!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))

注意：后续需要改进使用方法，可参考 https://hf.co/hexgrad/Kokoro-82M#usage ，但在构建 KModel 或 KPipeline 时应传入 repo_id='hexgrad/Kokoro-82M-v1.1-zh' 。具体可查看 make_en.py 和 make_zh.py 。

✨ 主要特性

多语言支持：支持英语和中文两种语言。
小体积大能量：模型参数规模为8200万，在保证性能的同时，占用资源较少。
数据丰富：训练数据包含专业中文数据集以及众包合成英语数据。

📦 安装指南

在 Google Colab 中运行以下命令进行安装：

!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1

💻 使用示例

基础用法

你可以在 Google Colab 上运行以下代码：

!pip install -q kokoro>=0.8.2 "misaki[zh]>=0.8.2" soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from IPython.display import display, Audio

!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_en.py
!python make_en.py
display(Audio('HEARME_en.wav', rate=24000, autoplay=True))

!wget https://huggingface.co/hexgrad/Kokoro-82M-v1.1-zh/resolve/main/samples/make_zh.py
!python make_zh.py
display(Audio('HEARME_zf_001.wav', rate=24000, autoplay=False))

📚 详细文档

版本发布信息

模型	发布时间	训练数据	语言与声音数量	SHA256哈希值
v1.1-zh	2025年2月26日	>100小时	2种语言，103种声音	`b1d8410f`
v1.0	2025年1月27日	几百小时	8种语言，54种声音	`496dba11`
v0.19	2024年12月25日	<100小时	1种语言，10种声音	`3b0c392f`

训练成本

训练成本	v0.19	v1.0	v1.1-zh	总计
A100 80GB GPU使用时长	500小时	500小时	120小时	1120小时
平均每小时费率	$0.80/小时	$1.20/小时	$0.90/小时
美元成本	$400	$600	$110	$1110

模型信息

属性	详情
模型类型	基于StyleTTS 2和ISTFTNet架构的TTS模型
训练数据	专业中文数据集（由「龙猫数据」提供）、众包合成英语数据
架构	StyleTTS 2: https://arxiv.org/abs/2306.07691；ISTFTNet: https://arxiv.org/abs/2203.02395；仅解码器，无扩散模型，无编码器发布
架构设计	Li等人 @ https://github.com/yl4579/StyleTTS2
训练者	`@rzvzn`（Discord）
支持语言	英语、中文
模型SHA256哈希值	`b1d8410fa44dfb5c15471fd6c4225ea6b4e9ac7fa03c98e8bea47a9928476e2b`