wav2vec2-large-xls-r-300m-urdu-cv8-200epochs开源模型

Wav2vec2 Large Xls R 300m Urdu Cv8 200epochs

由 omar47 开发

基于通用语音数据集训练的乌尔都语语音识别模型，采用wav2vec 2.0架构

下载量 20

发布时间 : 4/20/2022

模型简介

该模型是基于Facebook的wav2vec 2.0架构训练的大型语音识别模型，专门针对乌尔都语进行优化。模型在通用语音数据集上训练了200个epoch，具有3亿参数规模。

大规模预训练

基于3亿参数的大规模wav2vec 2.0架构，具有强大的语音特征提取能力

乌尔都语优化

专门针对乌尔都语进行训练和优化，适合乌尔都语语音识别任务

长时训练

在通用语音数据集上进行了200个epoch的充分训练

乌尔都语语音识别

语音转文本

自动语音转录

语音转录

乌尔都语语音转录

将乌尔都语语音内容转换为文本

词错误率(WER)为0.7723

语音助手

乌尔都语语音助手

为乌尔都语用户提供语音交互能力

训练损失	轮数	步数	验证损失	字错率（Wer）
0.3204	1.27	32	1.3200	0.7723
0.3021	2.55	64	1.3200	0.7723
0.3153	3.82	96	1.3200	0.7723
0.3239	5.12	128	1.3200	0.7723
0.3153	6.39	160	1.3200	0.7723
0.3202	7.67	192	1.3200	0.7723
0.3126	8.94	224	1.3200	0.7723
0.3183	10.24	256	1.3200	0.7723
0.3135	11.51	288	1.3200	0.7723
0.3137	12.78	320	1.3200	0.7723