xls-r-et开源爱沙尼亚语语音识别模型 - 免费部署精准识别语音内容

Xls R Et

由 shpotes 开发

基于wav2vec2-xls-r-300m架构微调的爱沙尼亚语自动语音识别模型，在Common Voice 7.0数据集上训练

下载量 23

发布时间 : 3/2/2022

模型简介

该模型是针对爱沙尼亚语优化的自动语音识别(ASR)系统，能够将爱沙尼亚语音频转换为文本

多数据集验证

在Common Voice 7.0和鲁棒语音赛事数据集上进行了全面评估

高效训练

使用混合精度训练和余弦学习率调度优化训练过程

低字符错误率

在测试集上达到7.54%的字错误率(CER)

爱沙尼亚语音频转文本

语音识别

语音转录

语音转录

语音备忘录转录

将爱沙尼亚语语音备忘录转换为可搜索的文本

在Common Voice测试集上达到34.75%的词错误率

辅助技术

语音输入系统

为爱沙尼亚语用户提供语音输入支持

训练损失	轮数	步数	验证损失	词错误率（Wer）
0.3825	12.5	500	0.4022	0.5059
0.1592	25.0	1000	0.4585	0.4456
0.1215	37.5	1500	0.4550	0.4164
0.0972	50.0	2000	0.4725	0.4088
0.0731	62.5	2500	0.4568	0.3824
0.0527	75.0	3000	0.4712	0.3653
0.0428	87.5	3500	0.4813	0.3520
0.0383	100.0	4000	0.4835	0.3475

任务	数据集	指标	值
自动语音识别	Common Voice 7	测试词错误率（Test WER）	0.34753420299077314
自动语音识别	Common Voice 7	测试字符错误率（Test CER）	0.07542956089330906
自动语音识别	Robust Speech Event - Dev Data	测试词错误率（Test WER）	47.17
自动语音识别	Robust Speech Event - Test Data	测试词错误率（Test WER）	54.72