Zonos-v0.1-transformer开源文本转语音模型 - 媲美顶级服务商的多语言语音转换

首页

Zonos V0.1 Transformer

由 Isi99999 开发

Zonos-v0.1 是一款领先的开源权重文本转语音模型，基于超过20万小时的多语言语音数据训练而成，其表现力和质量可与顶级TTS服务商媲美，甚至更胜一筹。

语音合成

Safetensors

开源协议:Apache-2.0 #零样本语音克隆 #多语言TTS #情感可控

下载量 30

发布时间 : 2/23/2025

模型简介

Zonos-v0.1 是一款文本转语音模型，能够从文本提示生成高度自然的语音，支持语音克隆和情感调控。

模型特点

零样本语音克隆

仅需几秒的参考音频片段即可精准实现语音克隆。

多语言支持

支持英语、日语、中文、法语、德语等多种语言。

情感调控

可精细调控语速、音高变化、音频质量以及快乐、恐惧、悲伤、愤怒等情感。

高效推理

RTX 4090显卡上实时因子达2倍速。

模型能力

文本转语音

语音克隆

情感调控

多语言支持

使用案例

语音合成

语音助手

为语音助手生成自然语音。

高度自然的语音输出。

有声读物

将文本转换为有声读物。

高质量、富有表现力的语音。

语音克隆

个性化语音

克隆特定人物的语音。

精准复现目标音色。

🚀 Zonos-v0.1

Zonos-v0.1是一款领先的开源权重文本转语音（TTS）模型，它在超过20万小时的多语言语音数据上进行训练，其表现力和质量与顶级TTS提供商相当，甚至更优。该模型能够根据文本提示生成高度自然的语音，并且在给定参考音频片段时可以准确进行语音克隆。此外，它还支持对语速、音高变化、音频质量和情感等方面进行精细控制。

🚀 快速开始

你可以通过以下两种方式使用Zonos-v0.1：

Python

import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-hybrid", device="cuda")
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
conditioning = model.prepare_conditioning(cond_dict)

codes = model.generate(conditioning)

wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Gradio界面（推荐）

uv run gradio_interface.py
# python gradio_interface.py

这将在你的项目根目录下生成一个sample.wav文件。

💡 使用建议

对于重复采样，我们强烈建议使用Gradio界面，因为上述最小示例每次运行时都需要加载模型。

✨ 主要特性

零样本TTS与语音克隆：输入所需文本和一个10 - 30秒的说话人样本，即可生成高质量的TTS输出。
音频前缀输入：添加文本和音频前缀，以实现更丰富的说话人匹配。音频前缀可用于实现诸如低语等行为，而仅从说话人嵌入进行克隆时，这些行为可能难以复制。
多语言支持：Zonos-v0.1支持英语、日语、中文、法语和德语。
音频质量和情感控制：Zonos允许对生成音频的多个方面进行精细控制，包括语速、音高、最大频率、音频质量以及各种情感，如快乐、愤怒、悲伤和恐惧。
快速运行：我们的模型在RTX 4090上的实时因子约为2倍。
Gradio WebUI：Zonos附带了一个易于使用的Gradio界面，用于生成语音。
简单的安装和部署：可以使用我们仓库中提供的Docker文件轻松安装和部署Zonos。

📦 安装指南

目前，此仓库仅支持具有最新NVIDIA GPU（3000系列或更新版本，6GB以上显存）的Linux系统（最好是Ubuntu 22.04/24.04）。

系统依赖

Zonos依赖于eSpeak库进行音素化。你可以在Ubuntu上使用以下命令安装它：

apt install -y espeak-ng

Python依赖

我们强烈建议使用最新版本的uv进行安装。如果你没有安装uv，可以通过pip进行安装：pip install -U uv。

安装到新的uv虚拟环境（推荐）

uv sync
uv sync --extra compile

使用uv安装到系统/激活的环境中

uv pip install -e .
uv pip install -e .[compile]

使用pip安装到系统/激活的环境中

pip install -e .
pip install --no-build-isolation -e .[compile]

确认安装是否成功

为了方便起见，我们提供了一个最小示例来检查安装是否正常工作：

uv run sample.py
# python sample.py

Docker安装

git clone https://github.com/Zyphra/Zonos.git
cd Zonos

# 对于Gradio
docker compose up

# 或者用于开发
docker build -t Zonos .
docker run -it --gpus=all --net=host -v /path/to/Zonos:/Zonos -t Zonos
cd /Zonos
python sample.py # 这将在/Zonos中生成一个sample.wav文件

🔧 技术细节

Zonos采用了一种简单直接的架构：首先通过eSpeak进行文本归一化和音素化，然后通过Transformer或混合主干进行DAC令牌预测。以下是该架构的概述图：

📄 许可证

本项目采用Apache-2.0许可证。