V

Vits Vctk

由 kakao-enterprise 开发
VITS是一种端到端语音合成模型,能够根据输入的文本序列预测对应的语音波形。该模型采用条件变分自编码器(VAE)架构,包含后验编码器、解码器和条件先验模块。
下载量 3,601
发布时间 : 8/31/2023
模型介绍
内容详情
替代品

模型简介

VITS是一种基于对抗学习的端到端语音合成模型,能够根据输入的文本序列预测对应的语音波形。模型采用条件变分自编码器(VAE)架构,支持从相同文本生成不同节奏的语音。

模型特点

端到端语音合成
能够根据输入的文本序列直接预测对应的语音波形,无需中间特征提取。
条件变分自编码器架构
采用条件变分自编码器(VAE)架构,包含后验编码器、解码器和条件先验模块。
随机时长预测器
创新性地引入随机时长预测器,支持从相同文本生成不同节奏的语音。
多说话人支持
提供单说话人和多说话人版本,支持109种口音。

模型能力

文本转语音
多说话人语音合成
不同节奏语音生成

使用案例

语音合成
语音助手
为语音助手提供自然语音合成能力。
生成自然、流畅的语音输出。
有声读物
将文本内容转换为语音,用于有声读物制作。
支持不同节奏和口音的语音生成。