🚀 wav2vec2-large-xls-r-300m-el模型
本模型是基于自动语音识别技术的模型,在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - EL数据集上微调了[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)模型,能够在语音识别任务中取得较好的效果。
🚀 快速开始
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - EL数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在评估集上取得了以下结果:
- 损失值:0.3218
- 词错误率(Wer):0.3095
✨ 主要特性
- 基于预训练模型[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调,在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - EL数据集上表现良好。
- 提供了使用语言模型(LM)和不使用语言模型的评估结果。
📦 安装指南
文档未提及安装相关内容,可参考Hugging Face平台的通用安装方式。
💻 使用示例
基础用法
如何使用eval.py
进行评估:
huggingface-cli login # 登录Hugging Face以获取访问Common Voice v8的认证令牌
# 使用语言模型运行
!python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-el --dataset mozilla-foundation/common_voice_8_0 --config el --split test
# 不使用语言模型运行
!python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-el --dataset mozilla-foundation/common_voice_8_0 --config el --split test --greedy
📚 详细文档
训练和评估数据
评估在Notebook中进行,你可以在仓库中的notebook_evaluation_wav2vec2_el.ipynb
查看。
测试不使用语言模型的词错误率(WER)和字符错误率(CER):
- 词错误率(wer) = 31.1294 %
- 字符错误率(cer) = 7.9509 %
测试使用语言模型的词错误率(WER)和字符错误率(CER):
- 词错误率(wer) = 20.7340 %
- 字符错误率(cer) = 6.0466 %
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:5e - 05
- 训练批次大小:32
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:64
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:400
- 训练轮数:80.0
- 混合精度训练:原生自动混合精度(Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(Wer) |
6.3683 |
8.77 |
500 |
3.1280 |
1.0 |
1.9915 |
17.54 |
1000 |
0.6600 |
0.6444 |
0.6565 |
26.32 |
1500 |
0.4208 |
0.4486 |
0.4484 |
35.09 |
2000 |
0.3885 |
0.4006 |
0.3573 |
43.86 |
2500 |
0.3548 |
0.3626 |
0.3063 |
52.63 |
3000 |
0.3375 |
0.3430 |
0.2751 |
61.4 |
3500 |
0.3359 |
0.3241 |
0.2511 |
70.18 |
4000 |
0.3222 |
0.3108 |
0.2361 |
78.95 |
4500 |
0.3205 |
0.3084 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技术细节
本模型在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - EL数据集上微调了[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)模型。通过调整一系列超参数,如学习率、批次大小等,在评估集上取得了较好的性能。同时,提供了使用语言模型和不使用语言模型的评估方式,以满足不同场景的需求。
📄 许可证
本模型使用Apache - 2.0许可证。
📋 模型信息
属性 |
详情 |
模型类型 |
自动语音识别模型 |
训练数据 |
mozilla - foundation/common_voice_8_0 |