wav2vec2-xls-r-300m-gl-CV8开源语音识别模型 - 助力加利西亚语语音精准识别

Wav2vec2 Xls R 300m Gl CV8

由 emre 开发

该模型是基于Facebook的wav2vec2-xls-r-300m在Common Voice加利西亚语(gl)数据集上微调的语音识别模型，在测试集上取得了20.8%的词错误率(WER)。

下载量 18

发布时间 : 3/2/2022

模型简介

这是一个用于加利西亚语(gl)自动语音识别(ASR)的模型，基于wav2vec2-xls-r-300m架构微调而来，适用于将加利西亚语语音转换为文本的任务。

多数据集评估

模型在Common Voice gl、Common Voice 8.0和Robust Speech Event等多个数据集上进行了评估，展示了在不同数据分布下的性能表现。

相对较低的WER

在Common Voice gl测试集上取得了20.8%的词错误率(WER)，表明对标准语音数据有较好的识别能力。

大规模预训练模型微调

基于Facebook的wav2vec2-xls-r-300m大规模预训练模型进行微调，利用了预训练模型的强大特征提取能力。

加利西亚语语音识别

语音转文本

自动语音识别

语音转录

加利西亚语语音转录

将加利西亚语语音内容转换为文本格式

在标准测试集上达到20.8%的词错误率

语音助手

加利西亚语语音指令识别

用于加利西亚语语音助手或语音控制系统的语音识别模块

训练损失	轮数	步数	验证损失	字错率（Wer）
4.9427	4.9	500	2.8801	1.0
2.1594	9.8	1000	0.4092	0.4001
0.7332	14.71	1500	0.2151	0.2080

模型名称	任务	数据集	指标	值
wav2vec2-xls-r-300m-gl-CV8	语音识别自动语音识别自动语音识别自动语音识别	Common Voice gl Common Voice 8.0 Robust Speech Event - Dev Data Robust Speech Event - Test Data	测试字错率（Test WER）测试字错率（Test WER）测试字错率（Test WER）测试字错率（Test WER）	0.208 22.94 47.82 50.8