wav2vec2-large-xlsr-53-finnish开源芬兰语语音识别模型

首页

Wav2vec2 Large Xlsr 53 Finnish

由 jonatasgrosman 开发

基于XLSR-53大模型微调的芬兰语语音识别模型，支持16kHz音频输入

语音识别其他开源协议:Apache-2.0 #芬兰语语音识别 #XLSR-53微调 #多源数据训练

下载量 73.11k

发布时间 : 3/2/2022

模型简介

针对芬兰语优化的自动语音识别模型，基于Common Voice和CSS10数据集训练

模型特点

芬兰语优化

专门针对芬兰语语音特征进行微调

XLSR-53架构

基于强大的跨语言语音表示模型架构

多数据集训练

使用Common Voice 6.1和CSS10数据集联合训练

模型能力

芬兰语语音转文本

16kHz音频处理

使用案例

语音转录

芬兰语语音转写

将芬兰语语音转换为文本

测试WER 41.60%，CER 8.23%

🚀 用于芬兰语语音识别的微调XLSR - 53大模型

本项目基于facebook/wav2vec2-large-xlsr-53模型，使用Common Voice 6.1和CSS10的训练集和验证集对芬兰语进行微调。使用此模型时，请确保语音输入采样率为16kHz。

该模型的微调得益于OVHcloud慷慨提供的GPU计算资源。训练脚本可在此处找到。

🚀 快速开始

本模型可直接使用（无需语言模型），以下为使用示例。

💻 使用示例

基础用法

使用HuggingSound库：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-finnish")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fi"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-finnish"
SAMPLES = 5

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是预测结果示例：

参考文本	预测文本
MYSTEERIMIES OLI OPPINUT MORAALINSA TARUISTA, ELOKUVISTA JA PELEISTÄ.	MYSTEERIMIES OLI OPPINUT MORALINSA TARUISTA ELOKUVISTA JA PELEISTÄ
ÄÄNESTIN MIETINNÖN PUOLESTA!	ÄÄNESTIN MIETINNÖN PUOLESTA
VAIN TUNTIA AIKAISEMMIN OLIMME MIEHENI KANSSA TUNTENEET SUURINTA ILOA.	PAIN TUNTIA AIKAISEMMIN OLIN MIEHENI KANSSA TUNTENEET SUURINTA ILAA
ENSIMMÄISELLE MIEHELLE SAI KOLME LASTA.	ENSIMMÄISELLE MIEHELLE SAI KOLME LASTA
ÄÄNESTIN MIETINNÖN PUOLESTA, SILLÄ POHJIMMILTAAN SIINÄ VASTUSTETAAN TÄTÄ SUUNTAUSTA.	ÄÄNESTIN MIETINNÖN PUOLESTA SILLÄ POHJIMMILTAAN SIINÄ VASTOTTETAAN TÄTÄ SUUNTAUSTA
TÄHDENLENTOJENKO VARALTA MINÄ SEN OLISIN TÄNNE KUSKANNUT?	TÄHDEN LENTOJENKO VARALTA MINÄ SEN OLISIN TÄNNE KUSKANNUT
SIITÄ SE TULEE.	SIITA SE TULEE
NIIN, KUULUU KIROUS, JA KAUHEA KARJAISU.	NIIN KUULUU KIROUS JA KAUHEA KARJAISU
ARKIT KUN OVAT NÄES ELEMENTTIRAKENTEISIA.	ARKIT KUN OVAT MÄISS' ELÄMÄTTEROKENTEISIÄ
JÄIN ALUKSEN SISÄÄN, MUTTA KUULIN OVEN LÄPI, ETTÄ ULKOPUOLELLA ALKOI TAPAHTUA.	JAKALOKSEHÄN SISÄL MUTTA KUULIN OVENLAPI ETTÄ ULKA KUOLLALLA ALKOI TAPAHTUA

📚 详细文档

评估模型

可使用以下代码在Common Voice芬兰语测试数据上评估模型：

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fi"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-finnish"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

测试结果

以下表格展示了该模型以及其他模型的词错误率（WER）和字符错误率（CER）。评估脚本于2021年4月21日运行。请注意，表格中的结果可能与之前报告的结果不同，这可能是由于使用的其他评估脚本的特殊性导致的。

模型	词错误率（WER）	字符错误率（CER）
aapot/wav2vec2-large-xlsr-53-finnish	32.51%	5.34%
Tommi/wav2vec2-large-xlsr-53-finnish	35.22%	5.81%
vasilis/wav2vec2-large-xlsr-53-finnish	38.24%	6.49%
jonatasgrosman/wav2vec2-large-xlsr-53-finnish	41.60%	8.23%
birgermoell/wav2vec2-large-xlsr-finnish	53.51%	9.18%

📄 许可证

本模型采用Apache - 2.0许可证。

📚 引用

如果您想引用此模型，可以使用以下BibTeX格式：

@misc{grosman2021xlsr53-large-finnish,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {F}innish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-finnish}},
  year={2021}
}

模型信息

属性	详情
模型类型	微调的XLSR - 53大模型
训练数据	Common Voice 6.1和CSS10的芬兰语数据
评估指标	词错误率（WER）、字符错误率（CER）
标签	音频、自动语音识别、语音、XLSR微调周