🚀 sammy786/wav2vec2-xlsr-chuvash
本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - cv 数据集上的微调版本。它在评估集(训练数据集的 10% 与其他和开发数据集合并而成)上取得了以下结果:
🚀 快速开始
本模型是基于 facebook/wav2vec2-xls-r-1b
在特定数据集上微调得到,可用于自动语音识别任务。若要评估该模型在 mozilla-foundation/common_voice_8_0
数据集 test
分割上的表现,可使用以下命令:
python eval.py --model_id sammy786/wav2vec2-xlsr-chuvash --dataset mozilla-foundation/common_voice_8_0 --config cv --split test
✨ 主要特性
- 基于预训练模型
facebook/wav2vec2-xls-r-1b
进行微调,在自动语音识别任务上有一定表现。
- 经过特定的训练过程,在评估集上取得了相应的损失和字错率指标。
📚 详细文档
模型描述
对 "facebook/wav2vec2-xls-r-1b" 进行了微调。
预期用途与限制
更多信息待补充。
训练和评估数据
训练数据为 Common voice Finnish 的 train.tsv
、dev.tsv
和 other.tsv
文件。
训练过程
为创建训练数据集,将所有可能的数据集进行合并,并采用 90 - 10 的分割方式。
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):0.000045637994662983496
- 训练批次大小(train_batch_size):8
- 评估批次大小(eval_batch_size):16
- 随机种子(seed):13
- 梯度累积步数(gradient_accumulation_steps):4
- 总训练批次大小(total_train_batch_size):32
- 优化器(optimizer):Adam,β=(0.9, 0.999),ε=1e - 08
- 学习率调度器类型(lr_scheduler_type):cosine_with_restarts
- 学习率调度器热身步数(lr_scheduler_warmup_steps):500
- 训练轮数(num_epochs):30
- 混合精度训练(mixed_precision_training):Native AMP
训练结果
步数 |
训练损失 |
验证损失 |
字错率(Wer) |
200 |
6.559100 |
2.274687 |
1.000000 |
400 |
1.346100 |
0.508268 |
0.681995 |
600 |
0.797500 |
0.391174 |
0.572876 |
800 |
0.556300 |
0.308620 |
0.489283 |
1000 |
0.435800 |
0.273956 |
0.454014 |
1200 |
0.388700 |
0.311027 |
0.499415 |
1400 |
0.338300 |
0.243977 |
0.413874 |
1600 |
0.294000 |
0.214134 |
0.385230 |
1800 |
0.276000 |
0.245991 |
0.397311 |
2000 |
0.253900 |
0.208324 |
0.363016 |
2200 |
0.233600 |
0.222156 |
0.370811 |
2400 |
0.219700 |
0.202602 |
0.364186 |
2600 |
0.205000 |
0.241339 |
0.384451 |
2800 |
0.176000 |
0.263558 |
0.384061 |
3000 |
0.166700 |
0.211768 |
0.333398 |
3200 |
0.160600 |
0.198677 |
0.321512 |
3400 |
0.154600 |
0.208655 |
0.328722 |
3600 |
0.146800 |
0.188022 |
0.317810 |
3800 |
0.133200 |
0.181083 |
0.313133 |
4000 |
0.134200 |
0.190084 |
0.316251 |
4200 |
0.114200 |
0.193034 |
0.312159 |
4400 |
0.117300 |
0.194122 |
0.312354 |
4600 |
0.112300 |
0.191111 |
0.305534 |
4800 |
0.107800 |
0.185930 |
0.302611 |
5000 |
0.100400 |
0.178625 |
0.299883 |
5200 |
0.099800 |
0.176442 |
0.294622 |
5400 |
0.100800 |
0.177935 |
0.294427 |
5600 |
0.096300 |
0.182903 |
0.293843 |
5800 |
0.094200 |
0.181041 |
0.293453 |
6000 |
0.097600 |
0.179865 |
0.290725 |
6200 |
0.091600 |
0.180327 |
0.292868 |
6400 |
0.093100 |
0.180275 |
0.292284 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
📄 许可证
本模型使用 Apache-2.0 许可证。
模型信息表格
属性 |
详情 |
模型类型 |
基于 facebook/wav2vec2-xls-r-1b 微调的自动语音识别模型 |
训练数据 |
Common voice Finnish 的 train.tsv 、dev.tsv 和 other.tsv 文件 |