wav2vec2-large-xlsr-arabic开源语音识别模型 - 支持阿拉伯语语音精准识别

Wav2vec2 Large Xlsr Arabic Common Voice 10 Epochs

由 salti 开发

基于wav2vec2架构的阿拉伯语语音识别模型，在Common Voice数据集上训练10个轮次

下载量 30

发布时间 : 3/2/2022

模型简介

该模型是针对阿拉伯语优化的自动语音识别(ASR)模型，基于Facebook的wav2vec2-large-xlsr架构，在Common Voice阿拉伯语数据集上训练。

阿拉伯语优化

专门针对阿拉伯语语音识别任务进行优化训练

基于wav2vec2架构

采用Facebook的wav2vec2-large-xlsr架构，具有强大的语音特征提取能力

高效训练

仅训练10个轮次即达到较好效果，验证损失0.3581，词错误率0.4555

阿拉伯语语音转文本

连续语音识别

语音特征提取

语音转写

阿拉伯语语音转录

将阿拉伯语语音内容转换为文本

词错误率0.4555

语音助手

阿拉伯语语音指令识别

用于阿拉伯语语音助手的基础识别组件

训练损失	轮数	步数	验证损失	字错率（Wer）
3.1701	0.9	400	3.1599	1.0
0.8933	1.8	800	0.7198	0.7877
0.5849	2.7	1200	0.5046	0.6253
0.3858	3.6	1600	0.4247	0.5561
0.3083	4.49	2000	0.4026	0.5251
0.2556	5.39	2400	0.4010	0.5051
0.2221	6.29	2800	0.3765	0.4861
0.2026	7.19	3200	0.3652	0.4794
0.1996	8.09	3600	0.3627	0.4660
0.1755	8.99	4000	0.3582	0.4619
0.1697	9.89	4400	0.3581	0.4555