wav2vec2-large-xlsr-53-W2V2-TATAR-SMALL开源模型 - 精准实现鞑靼语自动语音识别

Wav2vec2 Large Xlsr 53 W2V2 TATAR SMALL

由 emre 开发

该模型是基于facebook/wav2vec2-large-xlsr-53在Common Voice 8数据集上微调的鞑靼语(Tatar)自动语音识别模型，测试集WER为53.16%。

下载量 30

发布时间 : 3/2/2022

模型简介

这是一个针对鞑靼语优化的自动语音识别模型，基于wav2vec2架构，在Common Voice数据集上微调。

多语言支持

基于XLSR-53预训练模型，具有跨语言表示能力

语音识别优化

专门针对鞑靼语进行微调优化

高效训练

使用混合精度训练和梯度累积等技术提高训练效率

鞑靼语语音转文本

语音识别

语音转录

语音转录

鞑靼语语音转录

将鞑靼语语音内容转换为文本

WER 53.16%

语音助手

鞑靼语语音命令识别

用于鞑靼语语音助手或语音控制系统的语音识别模块

此模型是 facebook/wav2vec2-large-xlsr-53 在 common_voice 数据集上的微调版本。它在评估集上取得了以下结果：

该模型在 Common Voice 8 数据集（语言为 tt）上进行评估，字错率（WER）为 53.16%。

训练过程中使用了以下超参数：

训练损失	轮数	步数	验证损失	字错率（Wer）
6.2446	1.17	400	3.2621	1.0
1.739	2.35	800	0.5832	0.7688
0.4718	3.52	1200	0.4785	0.6824
0.3574	4.69	1600	0.4814	0.6792
0.2946	5.86	2000	0.4484	0.6506
0.2674	7.04	2400	0.4612	0.6225
0.2349	8.21	2800	0.4600	0.6050
0.2206	9.38	3200	0.4772	0.6048
0.2072	10.56	3600	0.4676	0.6106
0.1984	11.73	4000	0.4816	0.6079
0.1793	12.9	4400	0.4616	0.5836
0.172	14.08	4800	0.4808	0.5860
0.1624	15.25	5200	0.4854	0.5820
0.156	16.42	5600	0.4609	0.5656
0.1448	17.59	6000	0.4926	0.5817
0.1406	18.77	6400	0.4638	0.5654
0.1337	19.94	6800	0.4731	0.5652
0.1317	21.11	7200	0.4861	0.5639
0.1179	22.29	7600	0.4766	0.5521
0.1197	23.46	8000	0.4824	0.5584
0.1096	24.63	8400	0.5006	0.5559
0.1038	25.81	8800	0.4994	0.5440
0.0992	26.98	9200	0.4867	0.5405
0.0984	28.15	9600	0.4798	0.5361
0.0943	29.33	10000	0.4714	0.5316