wav2vec2-xls-r-1b-hi-cv8开源语音识别模型 - 免费支持印地语语音转文本

Wav2vec2 Xls R 1b Hi Cv8

由 anuragshas 开发

这是一个基于facebook/wav2vec2-xls-r-1b模型在Common Voice 8.0印地语数据集上微调的自动语音识别模型，支持印地语语音转文本任务。

下载量 16

发布时间 : 3/2/2022

模型简介

该模型专门用于印地语语音识别，能够将印地语语音转换为文本。在Common Voice评估集上取得了36.7%的词错误率。

大规模预训练基础

基于10亿参数的wav2vec2-xls-r模型微调，具备强大的语音特征提取能力

印地语优化

专门针对印地语语音数据进行微调，适应印地语发音特点

相对较低词错误率

在评估集上达到36.7%的词错误率，对于印地语语音识别任务表现良好

印地语语音识别

语音转文本

支持长音频处理

语音转录

印地语语音转文字

将印地语语音内容转换为可编辑的文本格式

词错误率36.7%

辅助工具

语音输入系统

为印地语用户提供语音输入支持

训练损失	轮数	步数	验证损失	字错率（Wer）
2.514	2.07	400	1.4589	0.8531
1.4289	4.15	800	0.8940	0.6475
1.276	6.22	1200	0.7743	0.6089
1.2213	8.29	1600	0.6919	0.4973
1.1522	10.36	2000	0.6635	0.4588
1.0914	12.44	2400	0.6839	0.4586
1.0499	14.51	2800	0.7151	0.4467
1.0238	16.58	3200	0.6824	0.4436
0.9963	18.65	3600	0.6872	0.4437
0.9728	20.73	4000	0.7047	0.4244
0.9373	22.8	4400	0.6569	0.4189
0.9028	24.87	4800	0.6623	0.4094
0.8759	26.94	5200	0.6723	0.4152
0.8824	29.02	5600	0.6467	0.4017
0.8371	31.09	6000	0.6911	0.4080
0.8205	33.16	6400	0.7145	0.4063
0.7837	35.23	6800	0.7037	0.3930
0.7708	37.31	7200	0.6925	0.3840
0.7359	39.38	7600	0.7034	0.3829
0.7153	41.45	8000	0.7030	0.3794
0.7127	43.52	8400	0.6823	0.3761
0.6884	45.6	8800	0.6854	0.3711
0.6835	47.67	9200	0.6723	0.3665
0.6703	49.74	9600	0.6773	0.3668