xls-r-uyghur-cv8开源自动语音识别模型 - 精准识别维吾尔语语音

首页

Xls R Uyghur Cv8

由 lucio 开发

基于facebook/wav2vec2-xls-r-300m在Common Voice 8维吾尔语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #维吾尔语语音识别 #低资源语言处理 #广播录音索引

下载量 24

发布时间 : 3/2/2022

模型简介

该模型是针对维吾尔语优化的自动语音识别(ASR)模型，适用于低精度要求的语音转文字场景

模型特点

维吾尔语优化

专门针对维吾尔语波斯-阿拉伯字母表优化，移除了标点符号

渐进式学习策略

采用2000步预热和9400步冷却的学习率策略，优化训练效果

低资源适应

在有限数据条件下仍能取得较好识别效果

模型能力

维吾尔语语音识别

广播录音转文字

视频字幕生成

使用案例

媒体处理

视频字幕草稿生成

为维吾尔语视频内容自动生成初步字幕

词错误率30.5%，字符错误率5.8%

广播录音索引

将维吾尔语广播内容转换为可搜索文本

🚀 XLS-R-300M维吾尔语CV8

本模型是基于 facebook/wav2vec2-xls-r-300m 在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - UG数据集上进行微调的版本。它在评估集上取得了以下结果：

损失值：0.2026
字错率（Wer）：0.3248

✨ 主要特性

语言支持：适用于维吾尔语，其词汇表由维吾尔语波斯 - 阿拉伯字母的字母组成，且去除了标点符号。
应用场景：可用于一些低保真度的场景，如草稿视频字幕、录制广播的索引等。

📚 详细文档

模型描述

关于模型架构的描述，请参考 facebook/wav2vec2-xls-r-300m。

预期用途和限制

此模型预计在以下低保真度用例中具有一定的实用性：

草稿视频字幕
录制广播的索引

该模型不够可靠，不能用作无障碍目的的实时字幕替代品，并且不应以侵犯Common Voice数据集的任何贡献者或其他说话者隐私的方式使用。

训练和评估数据

使用Common Voice官方划分的 train 和 dev 组合作为训练数据，官方的 test 划分作为验证数据以及最终评估数据。

训练过程

在维吾尔语CV8示例句子上微调最终的CTC/LM层时，冻结了XLS - R模型的特征提取层。使用了一个逐步变化的学习率，初始热身阶段为2000步，最大值为0.0001，在剩余的9400步（100个epoch）中逐渐冷却至0。

训练超参数

训练期间使用了以下超参数：

属性	详情
学习率	0.0001
训练批次大小	16
评估批次大小	8
随机种子	42
梯度累积步数	4
总训练批次大小	64
优化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型	线性
学习率调度器热身步数	2000
训练轮数	100.0
混合精度训练	原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
3.3036	5.32	500	3.2628	1.0
2.9734	10.63	1000	2.5677	0.9980
1.3466	15.95	1500	0.4455	0.6306
1.2424	21.28	2000	0.3603	0.5301
1.1655	26.59	2500	0.3165	0.4740
1.1026	31.91	3000	0.2930	0.4400
1.0655	37.23	3500	0.2675	0.4159
1.0239	42.55	4000	0.2580	0.3913
0.9938	47.87	4500	0.2373	0.3698
0.9655	53.19	5000	0.2379	0.3675
0.9374	58.51	5500	0.2486	0.3795
0.9065	63.83	6000	0.2243	0.3405
0.888	69.15	6500	0.2157	0.3277
0.8646	74.47	7000	0.2103	0.3288
0.8602	79.78	7500	0.2088	0.3238
0.8442	85.11	8000	0.2045	0.3266
0.8335	90.42	8500	0.2038	0.3241
0.8288	95.74	9000	0.2024	0.3280