🚀 wav2vec2-xls-r-300m-rm-vallader-d1 模型
本模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - RM - VALLADER数据集对facebook/wav2vec2-xls-r-300m进行微调后的版本。它在自动语音识别任务中表现出色,为罗曼什 - 瓦拉德语的语音识别提供了有效的解决方案。
✨ 主要特性
- 基于预训练模型
facebook/wav2vec2-xls-r-300m
进行微调,利用了大规模预训练的优势。
- 在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - RM - VALLADER数据集上进行训练,适用于罗曼什 - 瓦拉德语的自动语音识别任务。
- 提供了评估命令和训练超参数,方便复现和进一步优化。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
基于wav2vec2-xls-r-300m 微调的自动语音识别模型 |
训练数据 |
mozilla-foundation/common_voice_8_0(RM - VALLADER) |
评估结果
本模型在评估集上取得了以下结果:
- 损失(Loss): 0.2754
- 词错误率(Wer): 0.2831
评估命令
- 在
mozilla-foundation/common_voice_8_0
测试集上进行评估
python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-300m-rm-vallader-d1 --dataset mozilla-foundation/common_voice_8_0 --config rm-vallader --split test --log_outputs
- 在
speech-recognition-community-v2/dev_data
上进行评估
罗曼什 - 瓦拉德语在speech-recognition-community-v2/dev_data
中未找到。
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate): 7.5e - 05
- 训练批次大小(train_batch_size): 32
- 评估批次大小(eval_batch_size): 16
- 随机种子(seed): 42
- 优化器(optimizer): Adam(betas=(0.9, 0.999),epsilon = 1e - 08)
- 学习率调度器类型(lr_scheduler_type): 线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps): 500
- 训练轮数(num_epochs): 100.0
- 混合精度训练(mixed_precision_training): 原生自动混合精度(Native AMP)
训练结果
训练损失(Training Loss) |
轮数(Epoch) |
步数(Step) |
验证损失(Validation Loss) |
词错误率(Wer) |
2.927 |
15.15 |
500 |
2.9196 |
1.0 |
1.3835 |
30.3 |
1000 |
0.5879 |
0.5866 |
0.7415 |
45.45 |
1500 |
0.3077 |
0.3316 |
0.5575 |
60.61 |
2000 |
0.2735 |
0.2954 |
0.4581 |
75.76 |
2500 |
0.2707 |
0.2802 |
0.3977 |
90.91 |
3000 |
0.2785 |
0.2809 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
🔧 技术细节
文档未提供具体的技术实现细节,故跳过此章节。
📄 许可证
本模型使用Apache - 2.0许可证。