wav2vec2-large-xls-r-300m-or-d5开源模型 - 免费实现奥里亚语语音精准转文本

首页

Wav2vec2 Large Xls R 300m Or D5

由 DrishtiSharma 开发

这是一个基于facebook/wav2vec2-xls-r-300m在奥里亚语数据集上微调的自动语音识别(ASR)模型，专门用于奥里亚语的语音转文本任务。

语音识别

Transformers

其他开源协议:Apache-2.0 #奥里亚语语音识别 #低词错误率 #多场景语音处理

下载量 24

发布时间 : 3/2/2022

模型简介

该模型是在Mozilla Common Voice 8.0奥里亚语数据集上微调的语音识别模型，能够将奥里亚语语音转换为文本。

模型特点

奥里亚语专用

专门针对奥里亚语优化的语音识别模型

基于大规模预训练模型

基于facebook/wav2vec2-xls-r-300m模型微调，继承了其强大的语音特征提取能力

相对较低的CER

在测试集上取得了15.72%的字符错误率(CER)

模型能力

奥里亚语语音识别

语音转文本

长音频处理(支持分块处理)

使用案例

语音转录

奥里亚语语音转录

将奥里亚语语音内容转换为文本

测试集WER 57.91%，CER 15.72%

语音助手

奥里亚语语音指令识别

用于奥里亚语语音助手或语音控制系统的前端识别模块

🚀 wav2vec2-large-xls-r-300m-or-d5

该模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - OR数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在自动语音识别任务中表现出色，能有效处理语音数据并输出准确的识别结果。

✨ 主要特性

基于预训练模型facebook/wav2vec2 - xls - r - 300m进行微调，继承了强大的语音特征提取能力。
在多个数据集上进行评估，如Common Voice 8和Robust Speech Event - Dev Data，展现出良好的泛化能力。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

评估指标

该模型在评估集上取得了以下结果：

损失值（Loss）: 0.9571
词错误率（Wer）: 0.5450

评估命令

在mozilla - foundation/common_voice_8_0测试集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset mozilla-foundation/common_voice_8_0 --config or --split test --log_outputs

在speech - recognition - community - v2/dev_data上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset speech-recognition-community-v2/dev_data --config or --split validation --chunk_length_s 10 --stride_length_s 1

训练超参数

以下是训练过程中使用的超参数：

属性	详情
学习率（learning_rate）	0.000111
训练批次大小（train_batch_size）	16
评估批次大小（eval_batch_size）	8
随机种子（seed）	42
梯度累积步数（gradient_accumulation_steps）	2
总训练批次大小（total_train_batch_size）	32
优化器（optimizer）	Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
学习率调度器类型（lr_scheduler_type）	linear
学习率调度器热身步数（lr_scheduler_warmup_steps）	800
训练轮数（num_epochs）	200
混合精度训练（mixed_precision_training）	Native AMP

训练结果

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	验证损失（Validation Loss）	词错误率（Wer）
9.2958	12.5	300	4.9014	1.0
3.4065	25.0	600	3.5150	1.0
1.5402	37.5	900	0.8356	0.7249
0.6049	50.0	1200	0.7754	0.6349
0.4074	62.5	1500	0.7994	0.6217
0.3097	75.0	1800	0.8815	0.5985
0.2593	87.5	2100	0.8532	0.5754
0.2097	100.0	2400	0.9077	0.5648
0.1784	112.5	2700	0.9047	0.5668
0.1567	125.0	3000	0.9019	0.5728
0.1315	137.5	3300	0.9295	0.5827
0.1125	150.0	3600	0.9256	0.5681
0.1035	162.5	3900	0.9148	0.5496
0.0901	175.0	4200	0.9480	0.5483
0.0817	187.5	4500	0.9799	0.5516
0.079	200.0	4800	0.9571	0.5450