wav2vec2-large-xls-r-300m-pa-IN-dx1开源模型 - 免费部署实现旁遮普语自动语音识别

首页

Wav2vec2 Large Xls R 300m Pa IN Dx1

由 DrishtiSharma 开发

这是一个基于facebook/wav2vec2-xls-r-300m在旁遮普语(印度)数据集上微调的自动语音识别模型

语音识别

Transformers

开源协议:Apache-2.0 #旁遮普语语音识别 #低资源语言优化 #XLS-R架构

下载量 28

发布时间 : 3/2/2022

模型简介

该模型是针对旁遮普语(印度)优化的自动语音识别系统，基于Common Voice 8数据集训练，适用于语音转文本任务

模型特点

旁遮普语优化

专门针对旁遮普语(印度)方言优化的语音识别模型

基于大规模预训练模型

基于facebook/wav2vec2-xls-r-300m模型微调，继承了强大的语音特征提取能力

中等规模参数

3亿参数的模型规模，平衡了性能和效率

模型能力

语音转文本

旁遮普语语音识别

自动语音识别

使用案例

语音转录

旁遮普语语音转录

将旁遮普语(印度)语音转换为文本

测试集WER 48.73%，CER 16.87%

语音助手

旁遮普语语音指令识别

用于构建支持旁遮普语的语音助手系统

🚀 wav2vec2-large-xls-r-300m-pa-IN-dx1 模型

该模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - PA - IN数据集对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在自动语音识别任务中表现出色，为旁遮普语（pa - IN）的语音识别提供了有效的解决方案。

📦 模型信息

属性	详情
模型类型	自动语音识别模型
训练数据	mozilla - foundation/common_voice_8_0
许可证	Apache - 2.0
标签	automatic - speech - recognition、mozilla - foundation/common_voice_8_0、generated_from_trainer、pa - IN、robust - speech - event、hf - asr - leaderboard

📚 详细文档

评估结果

该模型在评估集上取得了以下结果：

损失值（Loss）: 1.0855
词错误率（Wer）: 0.4755

评估命令

在mozilla - foundation/common_voice_8_0测试集上评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-pa-IN-dx1 --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test --log_outputs

在speech - recognition - community - v2/dev_data上评估 旁遮普语在speech - recognition - community - v2/dev_data中不可用。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）: 0.0003
训练批次大小（train_batch_size）: 16
评估批次大小（eval_batch_size）: 8
随机种子（seed）: 42
优化器（optimizer）: Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
学习率调度器类型（lr_scheduler_type）: 线性
学习率调度器热身步数（lr_scheduler_warmup_steps）: 1200
训练轮数（num_epochs）: 100.0
混合精度训练（mixed_precision_training）: 原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	词错误率
3.4607	9.26	500	2.7746	1.0416
0.3442	18.52	1000	0.9114	0.5911
0.2213	27.78	1500	0.9687	0.5751
0.1242	37.04	2000	1.0204	0.5461
0.0998	46.3	2500	1.0250	0.5233
0.0727	55.56	3000	1.1072	0.5382
0.0605	64.81	3500	1.0588	0.5073
0.0458	74.07	4000	1.0818	0.5069
0.0338	83.33	4500	1.0948	0.5108
0.0223	92.59	5000	1.0986	0.4775