wav2vec2-large-xlsr-53-dutch开源荷兰语语音识别模型

首页

Wav2vec2 Large Xlsr 53 Dutch

由 jonatasgrosman 开发

基于facebook/wav2vec2-large-xlsr-53微调的荷兰语语音识别模型，在Common Voice和CSS10数据集上训练，支持16kHz音频输入。

语音识别其他开源协议:Apache-2.0 #荷兰语语音识别 #XLSR-53微调 #低词错误率(WER)

下载量 3.0M

发布时间 : 3/2/2022

模型简介

针对荷兰语优化的自动语音识别(ASR)模型，基于XLSR-53架构，适用于将荷兰语语音转换为文本。

模型特点

多数据集训练

使用Common Voice 6.1和CSS10数据集的训练集与验证集进行微调

语言模型支持

可结合语言模型使用，显著提升识别准确率(WER从15.72降至12.84)

高效语音处理

支持16kHz采样率的语音输入，适合实时语音识别场景

模型能力

荷兰语语音识别

音频转文本

支持带语言模型的增强识别

使用案例

语音转写

荷兰语语音转录

将荷兰语语音内容转换为文本格式

测试集WER 15.72/CER 5.35

语音助手

荷兰语语音指令识别

用于语音助手或智能家居设备的荷兰语指令识别

🚀 用于荷兰语语音识别的微调XLSR - 53大型模型

本模型是在荷兰语语音识别任务上微调的模型，基于facebook/wav2vec2-large-xlsr-53，使用了Common Voice 6.1和CSS10的训练集和验证集进行微调。它能有效识别荷兰语语音，为荷兰语语音处理提供了强大的工具。

🚀 快速开始

本模型是在荷兰语上对facebook/wav2vec2-large-xlsr-53进行微调得到的，使用了Common Voice 6.1和CSS10的训练集和验证集。使用此模型时，请确保语音输入的采样率为16kHz。

该模型的微调得益于OVHcloud慷慨提供的GPU算力支持。

训练脚本可在此处找到：https://github.com/jonatasgrosman/wav2vec2-sprint

✨ 主要特性

数据集：使用了common_voice和mozilla-foundation/common_voice_6_0等数据集进行训练。
评估指标：使用了字错误率（WER）和字符错误率（CER）作为评估指标。
应用场景：适用于自动语音识别任务。

属性	详情
模型类型	用于荷兰语语音识别的微调XLSR - 53大型模型
训练数据	common_voice、mozilla - foundation/common_voice_6_0

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

使用HuggingSound库：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-dutch")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "nl"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-dutch"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是一些实际的识别结果示例：

参考文本	预测文本
DE ABORIGINALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË.	DE ABBORIGENALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË
MIJN TOETSENBORD ZIT VOL STOF.	MIJN TOETSENBORD ZIT VOL STOF
ZE HAD DE BANK BESCHADIGD MET HAAR SKATEBOARD.	ZE HAD DE BANK BESCHADIGD MET HAAR SCHEETBOORD
WAAR LAAT JIJ JE ONDERHOUD DOEN?	WAAR LAAT JIJ HET ONDERHOUD DOEN
NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QWERTY TOETSENBORD.	NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QUERTITOETSEMBORD
DE TAMPONS ZIJN OP.	DE TAPONT ZIJN OP
MARIJKE KENT OLIVIER NU AL MEER DAN TWEE JAAR.	MAARRIJKEN KENT OLIEVIER NU AL MEER DAN TWEE JAAR
HET VOEREN VAN BROOD AAN EENDEN IS EIGENLIJK ONGEZOND VOOR DE BEESTEN.	HET VOEREN VAN BEUROT AAN EINDEN IS EIGENLIJK ONGEZOND VOOR DE BEESTEN
PARKET MOET JE STOFZUIGEN, TEGELS MOET JE DWEILEN.	PARKET MOET JE STOF ZUIGEN MAAR TEGELS MOET JE DWEILEN
IN ONZE BUURT KENT IEDEREEN ELKAAR.	IN ONZE BUURT KENT IEDEREEN ELKAAR

📚 详细文档

评估

在mozilla-foundation/common_voice_6_0的test分割集上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-dutch --dataset mozilla-foundation/common_voice_6_0 --config nl --split test

在speech-recognition-community-v2/dev_data上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-dutch --dataset speech-recognition-community-v2/dev_data --config nl --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 许可证

本模型使用Apache 2.0许可证。

🔗 引用

如果您想引用此模型，可以使用以下格式：

@misc{grosman2021xlsr53-large-dutch,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {D}utch},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-dutch}},
  year={2021}
}