xls-r-uyghur-cv7开源自动语音识别模型 - 精准识别维吾尔语语音内容

首页

Xls R Uyghur Cv7

由 lucio 开发

该模型是基于facebook/wav2vec2-xls-r-300m在维吾尔语Common Voice 7数据集上微调的自动语音识别模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #维吾尔语语音识别 #低资源语言处理 #Common Voice微调

下载量 18

发布时间 : 3/2/2022

模型简介

这是一个针对维吾尔语的自动语音识别模型，适用于低精度要求的语音转文字场景。

模型特点

低资源语言支持

专门针对维吾尔语优化的语音识别模型

高效微调

在Common Voice 7数据集上进行了精细调优

轻量级

基于300M参数的XLS-R模型，适合资源有限的环境

模型能力

维吾尔语语音识别

语音转文字

广播录音索引

使用案例

媒体处理

视频字幕生成

为维吾尔语视频内容生成草稿字幕

词错误率25.8%

广播内容索引

对维吾尔语广播录音进行自动索引

字符错误率4.8%

🚀 XLS-R-300M维吾尔语CV7

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - UG数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在评估集上取得了以下成果：

损失值：0.1772
词错误率（Wer）：0.2589

✨ 主要特性

模型描述

关于模型架构的描述，请参考facebook/wav2vec2 - xls - r - 300m。

该模型的词汇表由维吾尔语波斯 - 阿拉伯字母组成，且去除了标点符号。

预期用途与限制

此模型有望在低保真度的应用场景中发挥一定作用，例如：

草稿视频字幕
录制广播的索引

该模型的可靠性不足以替代用于无障碍目的的实时字幕，并且使用时不应侵犯Common Voice数据集贡献者或其他说话者的隐私。

训练和评估数据

使用Common Voice官方分割的train和dev组合作为训练数据。官方的test分割既用作验证数据，也用于最终评估。

训练过程

在维吾尔语CV7示例句子上微调最终的CTC/LM层时，XLS - R模型的特征提取层被冻结。使用了一个逐步变化的学习率，初始热身阶段为2000步，最大值为0.0001，在剩余的18500步（100个epoch）中逐渐冷却至0。

训练超参数

训练期间使用了以下超参数：

属性	详情
学习率（learning_rate）	0.0001
训练批次大小（train_batch_size）	8
评估批次大小（eval_batch_size）	8
随机种子（seed）	42
梯度累积步数（gradient_accumulation_steps）	4
总训练批次大小（total_train_batch_size）	32
优化器（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型（lr_scheduler_type）	线性
学习率调度器热身步数（lr_scheduler_warmup_steps）	2000
训练轮数（num_epochs）	100.0
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
3.3043	2.73	500	3.2415	1.0
3.0482	5.46	1000	2.9591	1.0
1.4767	8.2	1500	0.4779	0.5777
1.3152	10.93	2000	0.3697	0.4938
1.2246	13.66	2500	0.3084	0.4459
1.1781	16.39	3000	0.2842	0.4154
1.1351	19.13	3500	0.2615	0.3929
1.1052	21.86	4000	0.2462	0.3747
1.0711	24.59	4500	0.2366	0.3652
1.035	27.32	5000	0.2268	0.3557
1.0277	30.05	5500	0.2243	0.3450
1.002	32.79	6000	0.2204	0.3389
0.9837	35.52	6500	0.2156	0.3349
0.9773	38.25	7000	0.2127	0.3289
0.9807	40.98	7500	0.2142	0.3274
0.9582	43.72	8000	0.2004	0.3142
0.9548	46.45	8500	0.2022	0.3050
0.9251	49.18	9000	0.2019	0.3035
0.9103	51.91	9500	0.1964	0.3021
0.915	54.64	10000	0.1970	0.3032
0.8962	57.38	10500	0.2007	0.3046
0.8729	60.11	11000	0.1967	0.2942
0.8744	62.84	11500	0.1952	0.2885
0.874	65.57	12000	0.1894	0.2895
0.8457	68.31	12500	0.1895	0.2828
0.8519	71.04	13000	0.1912	0.2875
0.8301	73.77	13500	0.1878	0.2760
0.8226	76.5	14000	0.1808	0.2701
0.8071	79.23	14500	0.1849	0.2741
0.7999	81.97	15000	0.1808	0.2717
0.7947	84.7	15500	0.1821	0.2716
0.7783	87.43	16000	0.1824	0.2661
0.7729	90.16	16500	0.1773	0.2639
0.7759	92.9	17000	0.1767	0.2629
0.7713	95.63	17500	0.1780	0.2621
0.7628	98.36	18000	0.1773	0.2594