xls-r-300m-te开源自动语音识别模型 - 精准识别泰卢固语语音内容

首页

Xls R 300m Te

由 chmanoj 开发

基于facebook/wav2vec2-xls-r-300m在OpenSLR SLR66泰卢固语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #泰卢固语语音识别 #低词错误率 #XLS-R架构

下载量 25

发布时间 : 3/2/2022

模型简介

该模型是针对泰卢固语的自动语音识别(ASR)系统，能够将泰卢固语语音转换为文本。

模型特点

高精度泰卢固语识别

在OpenSLR SLR66测试集上达到24.7%的词错误率和4.86%的字错误率

基于XLS-R架构

使用facebook的wav2vec2-xls-r-300m作为基础模型，具有强大的语音特征提取能力

开源许可

采用Apache-2.0许可证，允许商业和研究用途

模型能力

泰卢固语语音识别

语音转文本

支持长音频处理

使用案例

语音转录

泰卢固语会议记录

将泰卢固语会议录音自动转换为文字记录

准确率约75.3%(基于WER指标)

语音助手

为泰卢固语用户提供语音交互功能

教育

语言学习辅助

帮助学习者练习泰卢固语发音和听力

🚀 xls-r-300m-te 模型

本模型是基于自动语音识别任务的微调模型，在OPENSLR_SLR66 - NA数据集上对 facebook/wav2vec2-xls-r-300m 进行微调。该模型在评估集上取得了良好的效果，为语音识别任务提供了有力支持。

🚀 快速开始

此模型是 facebook/wav2vec2-xls-r-300m 在OPENSLR_SLR66 - NA数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.2680
字错率（Wer）：0.3467

📄 许可证

本模型采用Apache-2.0许可证。

📚 详细文档

模型信息

属性	详情
语言	泰卢固语（te）
许可证	Apache-2.0
标签	自动语音识别、openslr_SLR66、由训练器生成、鲁棒语音事件、hf-asr-leaderboard
数据集	openslr、SLR66
评估指标	字错率（wer）

模型表现

模型名称	任务类型	数据集	评估指标	值	指标名称
xls-r-300m-te	自动语音识别	Open SLR（SLR66）	wer	24.695121951219512	测试字错率（Test WER）
xls-r-300m-te	自动语音识别	Open SLR（SLR66）	cer	4.861934182322532	测试字符错误率（Test CER）

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：7.5e-05
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：16
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：64
优化器（optimizer）：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：2000
训练轮数（num_epochs）：10.0
混合精度训练（mixed_precision_training）：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
3.0304	4.81	500	1.5676	1.0554
1.5263	9.61	1000	0.4693	0.8023
1.5299	14.42	1500	0.4368	0.7311
1.5063	19.23	2000	0.4360	0.7302
1.455	24.04	2500	0.4213	0.6692
1.4755	28.84	3000	0.4329	0.5943
1.352	33.65	3500	0.4074	0.5765
1.3122	38.46	4000	0.3866	0.5630
1.2799	43.27	4500	0.3860	0.5480
1.212	48.08	5000	0.3590	0.5317
1.1645	52.88	5500	0.3283	0.4757
1.0854	57.69	6000	0.3162	0.4687
1.0292	62.5	6500	0.3126	0.4416
0.9607	67.31	7000	0.2990	0.4066
0.9156	72.12	7500	0.2870	0.4009
0.8329	76.92	8000	0.2791	0.3909
0.7979	81.73	8500	0.2770	0.3670
0.7144	86.54	9000	0.2841	0.3661
0.6997	91.35	9500	0.2721	0.3485
0.6568	96.15	10000	0.2681	0.3437