高保真音频
Llasa 3B
Llasa是一个基于LLaMA的文本转语音(TTS)系统,通过整合语音标记扩展了语言模型的能力,支持中英文语音生成。
语音合成
支持多种语言
L
unsloth
55
1
Csm 1b
Apache-2.0
CSM(对话语音模型)是Sesame开发的1B参数语音生成模型,可从文本和音频输入生成RVQ音频编码。
语音合成
Safetensors
英语
C
unsloth
2,667
5
Voxpolska V1 Merged 16bit
Apache-2.0
VoxPolska是一个专注于波兰语文本到语音转换的先进模型,能够生成自然流畅且富有表现力的波兰语语音。
语音合成
Transformers
其他
V
salihfurkaan
116
1
Handler
MIT
Bark是由Suno创建的基于Transformer的文本转音频模型,可生成高度逼真的多语言语音、音乐、背景噪音和音效。
语音合成
支持多种语言
H
walterheart
20
0
Csm 1b
Apache-2.0
一个基于PyTorch的文本转语音模型,支持中文语音合成,由SesameAILabs开发并发布。
语音合成
C
nielsr
18
3
Inspiremusic Base
Apache-2.0
InspireMusic是一个专注于音乐生成、歌曲生成和音频生成的统一工具包,具有高音频质量和长篇幅音乐生成能力。
音频生成
英语
I
FunAudioLLM
60
10
Stable Audio Open 1.0 Music
其他
Stable Audio Tools 是一个文本转音频模型,能够根据文本描述生成高质量的音频内容。
音频生成
英语
S
Nekochu
62
3
F5 TTS German
F5-TTS 是一个基于流匹配技术的德语语音合成模型,专注于生成流畅且忠实的语音输出。
语音合成
支持多种语言
F
marduk-ra
577
26
Openmusic
QAMDT是一种面向文本生成音乐的质量感知扩散模型,通过创新训练技术提升音频保真度和音乐表现力。
音频生成
O
jadechoghari
108
63
Vits Eng
MIT
基于VITS架构的英文文本转语音模型,由Kakao Enterprise训练,支持高质量语音合成
语音合成
Transformers
英语
V
BricksDisplay
28
4
Musicgen Melody Large
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量音乐样本。
音频生成
Transformers
M
facebook
1,414
29
Musicgen Stereo Melody Large
MusicGen是一款支持立体声和旋律引导的文本到音乐生成模型,能够根据文本描述或音频提示生成高质量音乐样本。
音频生成
Transformers
M
facebook
61
47
Sepformer Dns4 16k Enhancement
Apache-2.0
这是一个基于SepFormer架构的语音增强模型,专门用于去噪任务,在微软DNS-4数据集上训练,支持16kHz采样频率的音频处理。
音频增强
支持多种语言
S
speechbrain
1,669
20
Harry Styles E150 S6600
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,能够将输入音频转换为Harry Styles风格的语音。
语音合成
Transformers
H
sail-rvc
1,659
0
Taylor Swift RVC V1
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,能够将输入音频转换为泰勒·斯威夫特风格的语音。
语音合成
Transformers
T
sail-rvc
4,540
0
Michaeljackson
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,能够将输入音频转换为迈克尔·杰克逊风格的语音。
语音合成
Transformers
M
sail-rvc
6,250
0
BLACKPINK JISOO RVC V1
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,专门用于将输入音频转换为BLACKPINK成员JISOO的声音风格。
语音合成
Transformers
B
sail-rvc
1,000
0
Bark Small
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
语音合成
Transformers
支持多种语言
B
ylacombe
1,947
2
Musicgen Medium
MusicGen是一款基于文本描述或音频提示生成高质量音乐样本的文本转音乐模型,采用15亿参数的自回归Transformer架构。
音频生成
Transformers
M
facebook
1.5M
118
Bark
MIT
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
语音合成
Transformers
支持多种语言
B
suno
35.72k
1,326
Tts Transformer Zh Cv7 Css10
基于fairseq S^2的Transformer文本转语音模型,支持简体中文,单人女声,在Common Voice v7和CSS10数据集上训练。
语音合成
中文
T
facebook
15
85
Kan Bayashi Ljspeech Joint Finetune Conformer Fastspeech2 Hifigan
这是一个基于 ESPnet2 的文本转语音(TTS)模型,使用 LJSpeech 数据集训练,结合了 Conformer、FastSpeech2 和 HiFi-GAN 架构。
语音合成
英语
K
espnet
20
16
Convtasnet Libri2Mix Sepclean 16k
这是一个基于Asteroid框架训练的ConvTasNet模型,专门用于音频分离任务,在Libri2Mix数据集的sep_clean任务上训练。
声音分离
C
JorisCos
13.38k
2