多说话人支持

# 多说话人支持

CSM（对话语音模型）是Sesame开发的1B参数语音生成模型，可从文本和音频输入生成RVQ音频编码。

Safetensors 英语

Csm 1b Safetensors Fp16

CSM（对话语音模型）是由Sesame开发的10亿参数语音生成模型，可通过文本和音频输入生成RVQ音频编码。

Transformers 英语

CSM是由Sesame开发的1B参数语音生成模型，可通过文本和音频输入生成RVQ音频编码，支持带上下文的语音生成。

Safetensors 英语

Csm 1b Safetensors Quants

CSM（对话语音模型）是Sesame开发的10亿参数语音生成模型，可通过文本和音频输入生成RVQ音频编码。

Transformers 英语

一个基于PyTorch的文本转语音模型，支持中文语音合成，由SesameAILabs开发并发布。

Kokoro 82M V1.1 Zh

Kokoro 是一个开放权重的小型但功能强大的文本转语音（TTS）模型系列，新增了来自专业数据集的100名中文说话人数据。

Yourtts Formosan Only Ithuan

基于阿美语和太鲁阁语的实验性语音合成模型，使用ithuan数据集训练

语音合成其他

基于F5-TTS的巴西葡萄牙语文本转语音模型，支持情感标记和说话者特征控制

语音合成其他

YarnGPT 是一款专为合成尼日利亚口音英语而设计的文本转语音（TTS）模型，采用纯语言建模技术，可为多样化应用提供高质量、自然且文化相关的语音合成。

Transformers 英语

Hindi Text To Speech Tts

基于microsoft/speecht5_tts微调的印地语文本转语音模型

Parler Tts Mini V1.1

Parler-TTS Mini v1.1 是一个轻量级的文本转语音模型，基于45,000小时的音频数据训练而成，能够生成高质量、自然流畅的语音，其特性可以通过简单的文本提示进行控制。

Transformers 英语

F5-TTS 是一个完全非自回归的零样本文本转语音模型，支持高质量的语音合成。

Speecht5 Tts Tr V1.0

基于Microsoft SpeechT5微调的土耳其语文本转语音模型，支持生成自然语音

Transformers 其他

Parler Tts Tiny V1

轻量级文本转语音模型，基于4.5万小时音频数据训练，可通过文本提示控制语音特性

Transformers 英语

Parler Tts Large V1

拥有22亿参数的文本转语音模型，基于4.5万小时音频数据训练，支持通过文本提示控制语音特征

Transformers 英语

Parler Tts Mini V1

轻量级文本转语音模型，基于4.5万小时音频训练，支持通过文本提示控制语音特征

Transformers 英语

Parler Tts Mini Expresso

Parler-TTS Mini：Expresso是基于Parler-TTS Mini v0.1在Expresso数据集上微调的轻量级文本转语音模型，支持情感和说话者控制。

Transformers 英语

Tts Ru Free Hf Vits Low Multispeaker

一个支持多说话人的俄语文本转语音模型，可直接处理带标点符号的普通文本，无需预先转换为音素。

Transformers 其他

Speecht5 Tts Arabic

基于微软SpeechT5架构微调的阿拉伯语文本转语音模型，在Hakawati数据集上训练

Transformers 阿拉伯语

Matxa Tts Cat Multispeaker

基于Matcha-TTS架构的加泰罗尼亚语多说话人文本转语音模型，通过最优传输条件流匹配训练，支持快速高质量语音合成

语音合成其他

这是一个基于VITS架构的俄语文本转语音模型，能够将俄语文本转换为自然语音。

Transformers 其他

VITS是一种端到端语音合成模型，能够根据输入的文本序列预测对应的语音波形。该模型采用条件变分自编码器（VAE）架构，包含后验编码器、解码器和条件先验模块。

kakao-enterprise

VITS是一种端到端语音合成模型，能够根据输入文本序列预测对应的语音波形。

kakao-enterprise

Speecht5 Finetuned Facebook Voxpopuli French

基于microsoft/speecht5_tts模型在voxpopuli法语数据集上微调的文本转语音模型

Nvidia Tts En Hifitts Hifigan Ft Fastpitch

HiFiGAN是一种基于GAN的声码器模型，能够从梅尔频谱图生成高质量音频，支持多说话人英语语音合成。

语音合成英语

Mastering-Python-HF

Speecht5 Tts Common Voice 5 Sv

基于微软SpeechT5架构微调的瑞典语文本转语音模型，使用Common Voice数据集训练

Transformers 其他

这是一个基于ESPnet2框架训练的日语文本转语音(TTS)模型，使用VITS架构，由mio在amadeus数据集上训练完成。

语音合成日语

Kan Bayashi Libritts Xvector Vits

基于ESPnet框架训练的文本转语音模型，使用LibriTTS数据集训练，支持英语语音合成。

语音合成英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24