16kHz采样率

# 16kHz采样率

Vits Icelandic Rosa Female Monospeaker

这是一个基于facebook/mms-tts-isl微调的冰岛语文本转语音模型，使用Talrómur数据集训练，专注于女性声音合成。

Transformers 其他

Whisper Medium Cv11 German Ct2

基于OpenAI的whisper-medium模型在Common Voice 11.0德语数据集上微调的自动语音识别模型

Transformers 德语

Whisper Medium Medical De AUT

基于Whisper Medium架构微调的德语医疗领域语音识别模型，特别针对奥地利标准德语发音优化

Transformers 德语

基于VITS架构的英文文本转语音模型，由Kakao Enterprise训练，支持高质量语音合成

Transformers 英语

Whisper Small Japanese

该模型是基于openai/whisper-small微调的日语语音识别模型，支持日语语音转文本任务。

Transformers 日语

Whisper Base Japanese

本模型使用Common Voice、JVS和JSUT数据集对openai/whisper-base进行日语微调，适用于日语语音识别任务。

Transformers 日语

Wav2vec2 Large Xlsr 53 Japanese

基于facebook/wav2vec2-large-xlsr-53微调的日语语音识别模型，支持16kHz采样率音频输入

Transformers 日语

Whisper Large V2 Cv11 German

基于openai/whisper-large-v2在Common Voice 11.0德语数据集上微调的自动语音识别模型，支持德语语音转文字，词错误率5.76

Transformers 德语

Wav2vec2 Large Chinese Zh Cn

基于XLSR-53大模型微调的中文语音识别模型，支持16kHz采样率的语音输入

Transformers 中文

Exp W2v2t Zh Cn Wavlm S596

基于microsoft/wavlm-large模型微调的中文语音识别模型，支持简体中文，使用Common Voice 7.0 (zh-CN)数据集训练。

Exp W2v2t Fa Hubert S801

基于facebook/hubert-large-ll60k模型微调的波斯语自动语音识别模型，使用Common Voice 7.0波斯语数据集训练。

Transformers 其他

Exp W2v2t Sv Se Vp Nl S842

这是一个基于facebook/wav2vec2-large-nl-voxpopuli模型微调的瑞典语自动语音识别模型，使用Common Voice 7.0 (sv-SE)数据集进行训练。

Exp W2v2t Sv Se Wavlm S42

基于microsoft/wavlm-large微调的瑞典语自动语音识别模型，适用于16kHz采样率的语音输入。

Exp W2v2t Fr Xls R S250

基于facebook/wav2vec2-xls-r-300m模型，使用Common Voice 7.0法语数据集微调的自动语音识别模型

Transformers 法语

Exp W2v2t Fr Vp Fr S438

基于facebook/wav2vec2-large-fr-voxpopuli模型微调的法语自动语音识别模型，使用Common Voice 7.0法语数据集训练。

Transformers 法语

Exp W2v2t Fr Unispeech S42

基于microsoft/unispeech-large-1500h-cv模型，使用Common Voice 7.0（法语）数据集微调的语音识别模型

Transformers 法语

Exp W2v2t It No Pretraining S842

基于随机初始化的wav2vec2模型进行微调，用于意大利语语音识别任务，训练数据采用Common Voice 7.0（意大利语）的训练集分割部分。

Transformers 其他

Exp W2v2t It Xlsr 53 S387

基于facebook/wav2vec2-large-xlsr-53模型微调的意大利语自动语音识别模型，使用Common Voice 7.0意大利语数据集训练。

Transformers 其他

Exp W2v2t It Vp 100k S449

基于facebook/wav2vec2-large-100k-voxpopuli模型微调的意大利语自动语音识别模型，使用Common Voice 7.0意大利语数据集训练。

Transformers 其他

Exp W2v2t It Wav2vec2 S609

基于facebook/wav2vec2-large-lv60模型微调的意大利语自动语音识别模型，使用Common Voice 7.0意大利语数据集训练。

Transformers 其他

Exp W2v2t Ja Vp It S544

基于facebook/wav2vec2-large-it-voxpopuli模型，使用Common Voice 7.0 (日语版)的训练集进行语音识别微调的日语自动语音识别模型。

Transformers 日语

Exp W2v2t Ja Unispeech Sat S884

基于microsoft/unispeech-sat-large模型微调的日语自动语音识别模型，使用Common Voice 7.0日语数据集训练。

Transformers 日语

Exp W2v2t Ja Wavlm S729

基于microsoft/wavlm-large模型微调的日语自动语音识别模型，使用Common Voice 7.0日语数据集训练

Transformers 日语

Exp W2v2t Ja Unispeech S569

基于microsoft/unispeech-large-1500h-cv模型，使用Common Voice 7.0 (日语)数据集进行语音识别微调的日语自动语音识别模型

Transformers 日语

Exp W2v2t Ja Xlsr 53 S109

基于facebook/wav2vec2-large-xlsr-53模型微调的日语自动语音识别模型，使用Common Voice 7.0日语数据集训练

Transformers 日语

Exp W2v2t Th Hubert S533

基于facebook/hubert-large-ll60k微调的泰语语音识别模型，训练数据来自Common Voice 7.0

Transformers 其他

Exp W2v2t Th Wav2vec2 S664

基于facebook/wav2vec2-large-lv60模型微调的泰语语音识别模型，使用Common Voice 7.0数据集训练

Transformers 其他

Exp W2v2t En Unispeech Sat S459

基于微软UniSpeech-SAT-Large模型微调的英语语音识别模型，支持16kHz采样率的语音输入。

Transformers 英语

Exp W2v2t En Vp Nl S281

基于facebook/wav2vec2-large-nl-voxpopuli模型微调的英语语音识别模型，使用Common Voice 7.0训练集进行训练。

Transformers 英语

Exp W2v2t En No Pretraining S289

这是一个针对英语语音识别任务的模型，基于随机初始化的wav2vec2架构，使用Common Voice 7.0数据集进行微调。

Transformers 英语

Wav2vec2 Large Tedlium

基于TEDLIUM语料库微调的Wav2Vec2大型语音识别模型，支持英语语音转文本

语音识别英语

Sharif Wav2vec2

Sharif Wav2vec2针对波斯语的微调版本，基于Common Voice波斯语样本训练，支持自动语音识别任务。

Transformers 其他

Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1

基于facebook/wav2vec2-large-xlsr-53在中文AISHELL-1数据集上微调的语音识别模型，支持中文语音识别任务。

Transformers 中文

Data2vec Audio Large 960h

Data2Vec是一个通用自监督学习框架，适用于语音、视觉和语言任务。该音频大模型基于LibriSpeech的960小时语音数据预训练和微调，专为自动语音识别任务优化。

Transformers 英语

Wav2vec2 Base Da Ft Nst

基于NST数据集微调的丹麦语语音识别模型，支持16kHz采样率音频输入

Transformers 其他

Wav2vec2 Xls R 1b Polish

这是一个基于XLS-R 10亿参数模型微调的波兰语自动语音识别(ASR)模型，在Common Voice 8.0等数据集上训练，支持16kHz采样率的语音输入。

Transformers 其他

Wav2vec2 Large Xlsr 53 Frisian

基于facebook/wav2vec2-large-xlsr-53模型，使用Common Voice数据集对弗里斯兰语进行微调的自动语音识别模型。

Wav2vec2 Large Xlsr 53 Es

基于Facebook的wav2vec2-large-xlsr-53模型，在西班牙语Common Voice数据集上微调的语音识别模型，测试WER为10.50%。

Transformers 西班牙语

Wav2vec2 Large Xlsr 53 Spanish

这是一个基于facebook/wav2vec2-large-xlsr-53模型在西班牙语Common Voice数据集上微调的自动语音识别(ASR)模型。

语音识别西班牙语

Sepformer Whamr16k

这是一个基于SepFormer架构的音频源分离模型，在WHAMR!数据集上训练，适用于16kHz采样率的音频信号分离。

声音分离英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24