语言:
- 荷兰语
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- mozilla-foundation/common_voice_7_0
- 荷兰语
- 鲁棒语音事件
- 对话模型
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: XLS-R-300M - 荷兰语版
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8 荷兰语
类型: mozilla-foundation/common_voice_8_0
参数: nl
指标:
- 名称: 测试WER
类型: wer
值: 46.94
- 名称: 测试CER
类型: cer
值: 21.65
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: nl
指标:
- 名称: 测试WER
类型: wer
值: ???
- 名称: 测试CER
类型: cer
值: ???
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 测试数据
类型: speech-recognition-community-v2/eval_data
参数: nl
指标:
- 名称: 测试WER
类型: wer
值: 42.56
xlsr300m_cv_8.0_nl
评估命令
- 在
mozilla-foundation/common_voice_8_0
数据集上评估test
分割集
python eval.py --model_id Iskaj/xlsr300m_cv_8.0_nl --dataset mozilla-foundation/common_voice_8_0 --config nl --split test
- 在
speech-recognition-community-v2/dev_data
数据集上评估
python eval.py --model_id Iskaj/xlsr300m_cv_8.0_nl --dataset speech-recognition-community-v2/dev_data --config nl --split validation --chunk_length_s 5.0 --stride_length_s 1.0
推理示例
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "Iskaj/xlsr300m_cv_8.0_nl"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "nl", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
inputs = processor(resampled_audio, sampling_rate=16_000, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
transcription[0].lower()