WER优化

# WER优化

Lite Whisper Large V3 Turbo

Lite-Whisper 是采用 LiteASR 技术压缩的 OpenAI Whisper 轻量版，在保持较高准确率的同时显著减小模型大小。

efficient-speech

Whisper Small El

这是一个基于openai/whisper-small模型在希腊语语音识别任务上微调的自动语音识别(ASR)模型，使用Mozilla Common Voice 17.0数据集中的3620个希腊语样本进行训练。

Transformers 其他

XLSR WithLM Malayalam

该模型是基于facebook/wav2vec2-xls-r-300m在IMaSC、Indic TTS Malayalam和OpenSLR Malayalam训练集数据集上微调得到的版本，支持马拉雅拉姆语自动语音识别。

Whisper Small Sk Cv11

基于OpenAI Whisper-small微调的斯洛伐克语语音识别模型，在Common Voice 11.0斯洛伐克语数据集上训练

Transformers 其他

基于facebook/wav2vec2-base微调的语音识别模型，在评估集上词错误率(WER)为0.8133

Wav2vec2 Base Demo Colab

基于facebook/wav2vec2-base模型微调的语音识别模型，在评估集上取得了31.42%的词错误率

English Filipino Wav2vec2 L Xls R Test 04

该模型是基于jonatasgrosman/wav2vec2-large-xlsr-53-english在filipino_voice数据集上微调的版本，用于英语-菲律宾语语音识别任务。

English Filipino Wav2vec2 L Xls R Test

基于jonatasgrosman/wav2vec2-large-xlsr-53-english微调的英语-菲律宾语语音识别模型

Wav2vec2 Base Timit Demo

基于facebook/wav2vec2-base微调的语音识别模型，在TIMIT数据集上取得28.25%的词错误率

Wav2vec2 Child En Tokenizer 4

该模型是基于facebook/wav2vec2-xls-r-300m微调的版本，专注于英语儿童语音识别任务。

Wav2vec2 Base Toy Train Data Random Low Pass

该模型是基于facebook/wav2vec2-base在未知数据集上微调的语音识别模型，主要用于自动语音识别(ASR)任务。

Wav2vec2 Large Xlsr 53 Toy Train Data Masked Audio 10ms

基于facebook/wav2vec2-large-xlsr-53微调的语音识别模型，在10ms音频掩码训练数据上优化

Wav2vec2 Base Toy Train Data Random Noise 0.1

基于facebook/wav2vec2-base模型在随机噪声数据集上微调的语音识别模型

Wav2vec2 Large Xlsr 53 Hsb

基于facebook/wav2vec2-large-xlsr-53模型微调的上索布语语音识别模型，支持16kHz音频输入

语音识别其他

该模型是在Common Voice 7.0 AB数据集上微调的自动语音识别模型，基于XLS-R dummy架构

Transformers 其他

Wav2vec2 Base Timit Demo Colab 32 Epochs30

基于facebook/wav2vec2-base微调的语音识别模型，在TIMIT数据集上训练30轮次

Wav2vec2 Base Demo Colab

基于facebook/wav2vec2-base微调的语音识别模型，在特定数据集上训练，词错误率(WER)为0.3391。

Wav2vec2 Xlsr Breton

该模型是基于facebook/wav2vec2-xls-r-1b在布列塔尼语数据集上微调的自动语音识别模型。

Transformers 其他

Wav2vec2 Large Xlsr Turkish Demo Colab

该模型是基于facebook/wav2vec2-large-xlsr-53在通用语音数据集上微调的土耳其语语音识别模型

patrickvonplaten

Wav2vec2 Xls R 300m Italian Robust

基于facebook/wav2vec2-xls-r-300m在多个意大利语语音数据集上微调的自动语音识别模型

Transformers 其他

Wav2vec2 Xls R 300m Gn Cv8

这是一个基于facebook/wav2vec2-xls-r-300m模型在Common Voice 8数据集上微调的自动语音识别(ASR)模型，支持瓜拉尼语(gn)。

Transformers 其他

Sew Tiny Portuguese Cv8

这是一个基于SEW-tiny架构的葡萄牙语自动语音识别模型，在Common Voice 8数据集上微调，适用于葡萄牙语语音识别任务。

Transformers 其他

Wav2vec2 Base Demo Colab

该模型是基于facebook/wav2vec2-base进行微调的语音识别模型，在Colab环境下训练完成

Wav2vec2 Xls R 300m Wolof Lm

这是一个基于facebook/wav2vec2-xls-r-300m微调的沃洛夫语自动语音识别模型，旨在解决沃洛夫语资源匮乏的问题。

Transformers 其他

Xls R Kyrgiz Cv8

该模型是基于facebook/wav2vec2-xls-r-300m在Common Voice 8.0吉尔吉斯语数据集上微调的自动语音识别模型

Transformers 其他

Wav2vec2 Georgian Daytona

基于facebook/wav2vec2-large-xlsr-53模型微调的格鲁吉亚语语音识别模型，在通用语音数据集上训练

语音识别其他

Wav2vec2 Random

基于TIMIT_ASR数据集对wav2vec2-base-random模型进行微调的自动语音识别模型

patrickvonplaten

Wav2vec2 Xls R 300m Gl CV8

该模型是基于Facebook的wav2vec2-xls-r-300m在Common Voice加利西亚语(gl)数据集上微调的语音识别模型，在测试集上取得了20.8%的词错误率(WER)。

Transformers 其他

Wav2vec2 Large Xls R 300m Hsb V1

这是一个基于facebook/wav2vec2-xls-r-300m在上索布语(HSB)数据集上微调的自动语音识别模型，在Common Voice 8测试集上取得了0.4393的词错误率(WER)。

Transformers 其他

Wav2vec2 Xls R 300m German De

该模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - DE数据集上微调的德语自动语音识别模型。

Transformers 德语

Wav2vec2 Large Xls R 300m Br D10

这是一个基于facebook/wav2vec2-xls-r-300m在布列塔尼语数据集上微调的语音识别模型，在Common Voice 8测试集上取得了52.3%的词错误率(WER)。

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24