license: cc-by-4.0
language: tr
tags:
- 自动语音识别
- hf-asr-leaderboard
- mozilla-foundation/common_voice_7_0
- robust-speech-event
- tr
datasets:
- mozilla-foundation/common_voice_7_0
model-index:
- name: mpoyraz/wav2vec2-xls-r-300m-cv7-turkish
results:
- task:
name: 自动语音识别
type: automatic-speech-recognition
dataset:
name: Common Voice 7
type: mozilla-foundation/common_voice_7_0
args: tr
metrics:
- name: 测试WER
type: wer
value: 8.62
- name: 测试CER
type: cer
value: 2.26
- task:
name: 自动语音识别
type: automatic-speech-recognition
dataset:
name: Robust Speech Event - 开发数据
type: speech-recognition-community-v2/dev_data
args: tr
metrics:
- name: 测试WER
type: wer
value: 30.87
- name: 测试CER
type: cer
value: 10.69
- task:
name: 自动语音识别
type: automatic-speech-recognition
dataset:
name: Robust Speech Event - 测试数据
type: speech-recognition-community-v2/eval_data
args: tr
metrics:
- name: 测试WER
type: wer
value: 32.09
wav2vec2-xls-r-300m-cv7-turkish
模型描述
该自动语音识别模型是基于facebook/wav2vec2-xls-r-300m在土耳其语上微调的版本。
训练和评估数据
微调使用了以下数据集:
训练过程
为了支持上述两个数据集,使用了自定义预处理和加载步骤,并利用了wav2vec2-turkish仓库实现这一目的。
训练超参数
微调使用了以下超参数:
- 学习率 2e-4
- 训练轮数 10
- 预热步数 500
- 冻结特征提取器
- 时间掩码概率 0.1
- 特征掩码概率 0.05
- 特征投影丢弃率 0.05
- 注意力丢弃率 0.05
- 最终丢弃率 0.05
- 激活丢弃率 0.05
- 每设备训练批次大小 8
- 每设备评估批次大小 8
- 梯度累积步数 8
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.1
- Datasets 1.17.0
- Tokenizers 0.10.3
语言模型
N-gram语言模型基于土耳其语维基百科文章训练,使用了KenLM,并通过ngram-lm-wiki仓库生成arpa语言模型并转换为二进制格式。
评估命令
运行评估前请安装unicode_tr包,用于土耳其语文本处理。
- 在
mozilla-foundation/common_voice_7_0
的test
分割上评估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test
- 在
speech-recognition-community-v2/dev_data
上评估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
评估结果:
数据集 |
WER |
CER |
Common Voice 7 TR测试分割 |
8.62 |
2.26 |
语音识别社区开发数据 |
30.87 |
10.69 |