高保真音频

# 高保真音频

Llasa是一个基于LLaMA的文本转语音(TTS)系统，通过整合语音标记扩展了语言模型的能力，支持中英文语音生成。

语音合成支持多种语言

CSM（对话语音模型）是Sesame开发的1B参数语音生成模型，可从文本和音频输入生成RVQ音频编码。

Safetensors 英语

Voxpolska V1 Merged 16bit

VoxPolska是一个专注于波兰语文本到语音转换的先进模型，能够生成自然流畅且富有表现力的波兰语语音。

Transformers 其他

Bark是由Suno创建的基于Transformer的文本转音频模型，可生成高度逼真的多语言语音、音乐、背景噪音和音效。

语音合成支持多种语言

一个基于PyTorch的文本转语音模型，支持中文语音合成，由SesameAILabs开发并发布。

Inspiremusic Base

InspireMusic是一个专注于音乐生成、歌曲生成和音频生成的统一工具包，具有高音频质量和长篇幅音乐生成能力。

音频生成英语

Stable Audio Open 1.0 Music

Stable Audio Tools 是一个文本转音频模型，能够根据文本描述生成高质量的音频内容。

音频生成英语

F5-TTS 是一个基于流匹配技术的德语语音合成模型，专注于生成流畅且忠实的语音输出。

语音合成支持多种语言

一个基于Pytorch的音频去噪和语音增强模型，有效去除音频噪声提升语音清晰度

QAMDT是一种面向文本生成音乐的质量感知扩散模型，通过创新训练技术提升音频保真度和音乐表现力。

基于VITS架构的英文文本转语音模型，由Kakao Enterprise训练，支持高质量语音合成

Transformers 英语

Musicgen Melody Large

MusicGen是一款由Meta AI开发的文本生成音乐模型，能够根据文本描述或音频提示生成高质量音乐样本。

Musicgen Stereo Melody Large

MusicGen是一款支持立体声和旋律引导的文本到音乐生成模型，能够根据文本描述或音频提示生成高质量音乐样本。

Sepformer Dns4 16k Enhancement

这是一个基于SepFormer架构的语音增强模型，专门用于去噪任务，在微软DNS-4数据集上训练，支持16kHz采样频率的音频处理。

音频增强支持多种语言

Harry Styles E150 S6600

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，能够将输入音频转换为Harry Styles风格的语音。

Taylor Swift RVC V1

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，能够将输入音频转换为泰勒·斯威夫特风格的语音。

这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型，能够将输入音频转换为迈克尔·杰克逊风格的语音。

BLACKPINK JISOO RVC V1

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，专门用于将输入音频转换为BLACKPINK成员JISOO的声音风格。

Bark是由Suno创建的基于Transformer的文本转音频模型，能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。

Transformers 支持多种语言

Musicgen Medium

MusicGen是一款基于文本描述或音频提示生成高质量音乐样本的文本转音乐模型，采用15亿参数的自回归Transformer架构。

Bark是由Suno创建的基于Transformer的文本转音频模型，能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。

Transformers 支持多种语言

Tts Transformer Zh Cv7 Css10

基于fairseq S^2的Transformer文本转语音模型，支持简体中文，单人女声，在Common Voice v7和CSS10数据集上训练。

语音合成中文

Kan Bayashi Ljspeech Joint Finetune Conformer Fastspeech2 Hifigan

这是一个基于 ESPnet2 的文本转语音(TTS)模型，使用 LJSpeech 数据集训练，结合了 Conformer、FastSpeech2 和 HiFi-GAN 架构。

语音合成英语

Convtasnet Libri2Mix Sepclean 16k

这是一个基于Asteroid框架训练的ConvTasNet模型，专门用于音频分离任务，在Libri2Mix数据集的sep_clean任务上训练。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24