16kHz音频适配

# 16kHz音频适配

Whisper Medium Vaani Telugu

基于OpenAI Whisper-small架构的泰卢固语自动语音识别模型，由ARTPARK-IISc团队针对印度语言优化

语音识别其他

Viwav2vec2 Base 3k

该模型是基于3千小时越南语语音数据预训练的Wav2Vec2基础模型，适用于越南语语音识别任务，需在下游任务上微调后使用。

Transformers 其他

Data2vec Audio Large 100h

Data2Vec是一个通用的自监督学习框架，适用于语音、自然语言处理和计算机视觉任务。该模型是基于Librispeech语音音频进行100小时预训练和微调的大模型。

Transformers 英语

Wav2vec2 Large El Voxpopuli V2

基于VoxPopuli语料库预训练的希腊语语音识别模型，使用17.7小时未标注数据

Transformers 其他

W2v Hf Commonvoice From Xlsr53 Pretrain 0329UTC1500

基于facebook/wav2vec2-large-xlsr-53在Common Voice日语数据集上微调的语音识别模型

Wav2vec2 Large Xlsr 53 Dhivehi V2

基于facebook/wav2vec2-large-xlsr-53模型，使用普通语音的迪维希语数据进行了微调的自动语音识别模型。

Transformers 其他

Wav2vec2 Large Xlsr 53 Vietnamese

基于facebook/wav2vec2-large-xlsr-53模型微调的越南语自动语音识别模型，支持16kHz采样率的语音输入。

Transformers 其他

Wav2vec2 Large Xlsr 53 Spanish

基于facebook/wav2vec2-large-xlsr-53模型微调的西班牙语语音识别模型，在Common Voice 6.1西班牙语数据集上训练

语音识别西班牙语

Wav2vec2 Large Xlsr 53 German

这是一个针对德语语音识别任务微调的XLSR-53大模型，基于Facebook的wav2vec2-large-xlsr-53模型，在Common Voice 6.1德语数据集上进行了微调。

语音识别德语

Wav2vec2 Large West Germanic Voxpopuli V2

Facebook的Wav2Vec2大型模型，仅在西日耳曼语系的VoxPopuli语料库66.3无标注数据上进行预训练。

Wav2vec2 Large Xlsr 53 Sakha

基于XLSR-53大模型微调的雅库特语语音识别模型，词错误率32.23%

语音识别其他

SEW-tiny是由ASAPP Research开发的压缩高效型语音预训练模型，基于16kHz采样的语音音频进行预训练，适用于多种下游语音任务。

Transformers 支持多种语言

Wav2vec2 Large Xlsr Georgian

基于facebook/wav2vec2-large-xlsr-53模型微调的格鲁吉亚语自动语音识别模型，支持16kHz采样率语音输入

Transformers 其他

Wav2vec2 Large Xlsr 53 Mongolian

基于facebook/wav2vec2-large-xlsr-53在蒙古语通用语音数据集上微调的自动语音识别模型

Transformers 其他

Wav2vec2 Large Xlsr 53 Breton

基于facebook/wav2vec2-large-xlsr-53在布列塔尼语上微调的语音识别模型

语音识别其他

Wav2vec2 Base Da Voxpopuli V2

基于Facebook Wav2Vec2架构的语音模型，专门针对丹麦语进行预训练，使用VoxPopuli语料库的13.6k未标注数据。

Transformers 其他

Sew D Tiny 100k

SEW-D是由ASAPP Research开发的压缩高效型语音预训练模型，基于16kHz采样的语音音频进行预训练，适用于多种下游语音任务。

Transformers 英语

Unispeech 1350 En 17h Ky Ft 1h

基于微软UniSpeech架构的语音识别模型，专门针对吉尔吉斯语进行微调

Transformers 其他

Wav2vec2 Xlsr Multilingual 53 Fa

基于wav2vec 2.0架构的多语言语音识别模型，专门针对波斯语进行微调，显著降低词错误率

Wav2vec2 Large Xlrs Estonian

这是一个基于facebook/wav2vec2-large-xlsr-53模型在爱沙尼亚语通用语音数据集上微调的自动语音识别(ASR)模型。

语音识别其他

Hubert Large Superb Ks

基于Hubert-Large架构的关键词检测模型，在SUPERB基准测试中表现优异

Transformers 英语

Wav2vec2 Large Xlsr Hindi Marathi

基于Facebook的wav2vec2-large-xlsr-53模型微调，支持印地语和马拉地语的自动语音识别任务

Transformers 其他

Wav2vec2 Large Xlsr Bengali

基于facebook/wav2vec2-large-xlsr-53模型微调的孟加拉语自动语音识别模型，使用OpenSLR数据集训练。

Wav2vec2 Large Fr Voxpopuli French

基于facebook/wav2vec2-large-fr-voxpopuli微调的法语语音识别模型，在Common Voice 6.1法语数据集上训练，支持16kHz音频输入

语音识别法语

Wav2vec2 Base Hr Voxpopuli V2

基于Facebook Wav2Vec2架构的语音模型，使用克罗地亚语VoxPopuli语料库预训练

Transformers 其他

Sew D Base Plus 400k Ft Ls100h

SEW-D-base+ 是由 ASAPP Research 开发的高效语音识别模型，基于 16kHz 采样的语音音频进行预训练，在 LibriSpeech 数据集上表现出色。

Transformers 英语

Wav2vec2 Xlsr 53 Tamil

基于facebook/wav2vec2-large-xlsr-53模型微调的泰米尔语语音识别模型，在Common Voice泰米尔语数据集上训练。

语音识别其他

Wav2vec2 Large Xlsr 53 Estonian

基于Facebook的XLSR-53大模型微调的爱沙尼亚语语音识别模型，在通用语音数据集上达到30.74%词错误率

语音识别其他

Wav2vec2 Large Xlsr 53 Estonian

基于facebook/wav2vec2-large-xlsr-53模型，使用通用语音数据集对爱沙尼亚语进行微调的自动语音识别模型

Transformers 其他

Wav2vec2 Large Xlsr 53 Chuvash

基于facebook/wav2vec2-large-xlsr-53模型微调的楚瓦什语自动语音识别模型，在通用语音数据集上训练，词错误率为40.01%。

语音识别其他

Wav2vec2 Large Superb Ks

基于Wav2Vec2-Large-LV60预训练模型，在SUPERB关键词检测任务上微调的语音分类模型

Transformers 英语

Wav2vec2 Large 960h Lv60

Wav2Vec2是一个强大的语音识别模型，通过自监督学习从原始音频中提取特征，并在有限标记数据下实现高性能语音识别。

语音识别英语

Wav2vec2 Base Vn 270h

基于约270小时越南语标注数据微调的语音识别模型，支持越南语自动语音识别任务

语音识别其他

Viwav2vec2 Base 100h

基于VLSP数据集中100小时未标注越南语语音音频预训练的Wav2Vec2基础模型，需在下游任务上微调使用。

Transformers 其他

Wav2vec2 Large Xlsr 53 Hungarian

这是一个基于facebook/wav2vec2-large-xlsr-53模型微调的匈牙利语自动语音识别模型，使用通用语音数据集训练。

语音识别其他

Wav2vec2 Large Xlsr Vietnamese

基于facebook/wav2vec2-large-xlsr-53模型微调的越南语自动语音识别模型

语音识别其他

Wav2vec2 Large Xlsr 53 Lithuanian

基于Facebook的XLSR-53大模型微调的立陶宛语语音识别模型，在Common Voice数据集上训练，测试WER为56.55%。

语音识别其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24