wav2vec2-large-xlsr-53-persian开源语音识别模型

首页

Wav2vec2 Large Xlsr 53 Persian

由 jonatasgrosman 开发

针对波斯语优化的XLSR-53大模型语音识别系统，基于facebook/wav2vec2-large-xlsr-53架构微调

语音识别其他开源协议:Apache-2.0 #波斯语语音识别 #XLSR-53大模型 #低字符错误率

下载量 257.76k

发布时间 : 3/2/2022

模型简介

本模型是基于XLSR-53架构优化的波斯语语音识别系统，使用通用语音6.1波斯语数据集训练，适用于波斯语语音转文本任务。

模型特点

高性能波斯语识别

在通用语音波斯语测试集上达到30.12%的词错误率和7.37%的字错误率

基于XLSR-53架构

利用大规模自监督预训练的XLSR-53模型进行微调

16kHz采样率支持

专为16kHz采样率的语音输入优化

模型能力

波斯语语音识别

语音转文本

音频转录

使用案例

语音转录

波斯语语音转文本

将波斯语语音内容转换为文本格式

在通用语音测试集上达到30.12%的词错误率

语音助手

波斯语语音指令识别

用于波斯语语音助手的语音指令理解

🚀 用于波斯语语音识别的微调XLSR - 53大模型

本模型基于 facebook/wav2vec2-large-xlsr-53，使用 Common Voice 6.1 的训练集和验证集针对波斯语进行了微调。使用此模型时，请确保语音输入的采样率为16kHz。

本模型的微调得益于 OVHcloud 慷慨提供的GPU计算资源。训练脚本可在以下链接找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速开始

本模型可直接使用（无需语言模型），以下将介绍具体使用方法。

✨ 主要特性

数据集：基于 Common Voice 数据集进行训练。
评估指标：使用字错误率（WER）和字符错误率（CER）进行评估。
应用场景：适用于波斯语的自动语音识别任务。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库的安装说明，如 huggingsound、torch、librosa、datasets、transformers 等。

💻 使用示例

基础用法

使用 HuggingSound 库：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-persian")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fa"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-persian"
SAMPLES = 5

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是预测结果示例：

参考文本	预测文本
از مهمونداری کنار بکشم	از مهمانداری کنار بکشم
برو از مهرداد بپرس.	برو از ماقدعاد به پرس
خب ، تو چیكار می كنی؟	خوب تو چیکار می کنی
مسقط پایتخت عمان در عربی به معنای محل سقوط است	مسقط پایتخت عمان در عربی به بعنای محل سقوط است
آه، نه اصلاُ!	اهنه اصلا
توانست	توانست
قصیده فن شعر میگوید ای دوستان	قصیده فن شعر میگوید ایدوستون
دو استایل متفاوت دارین	دوبوست داریل و متفاوت بری
دو روز قبل از کریسمس ؟	اون مفتود پش پشش
ساعت های کاری چیست؟	این توری که موشیکل خب

📚 详细文档

评估方法

本模型可在 Common Voice 的波斯语测试数据上进行评估，以下是评估代码：

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fa"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-persian"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

测试结果

以下表格展示了本模型及其他模型的字错误率（WER）和字符错误率（CER）。评估脚本于2021年4月22日运行。请注意，表格中的结果可能与其他评估脚本的结果有所不同。

模型	字错误率（WER）	字符错误率（CER）
jonatasgrosman/wav2vec2-large-xlsr-53-persian	30.12%	7.37%
m3hrdadfi/wav2vec2-large-xlsr-persian-v2	33.85%	8.79%
m3hrdadfi/wav2vec2-large-xlsr-persian	34.37%	8.98%

📄 许可证

本模型使用 Apache 2.0 许可证。

📚 引用格式

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021xlsr53-large-persian,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {P}ersian},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-persian}},
  year={2021}
}