wav2vec2-large-xlsr-53-italian开源模型 - 精准实现意大利语自动语音识别

首页

Wav2vec2 Large Xlsr 53 Italian

由 jonatasgrosman 开发

基于facebook/wav2vec2-large-xlsr-53模型微调的意大利语自动语音识别模型，在Common Voice 6.1数据集上训练

语音识别其他开源协议:Apache-2.0 #意大利语语音识别 #低词错误率 #XLSR微调

下载量 1,012

发布时间 : 3/2/2022

模型简介

该模型是针对意大利语优化的自动语音识别(ASR)模型，基于XLSR-53架构微调，支持16kHz采样率的语音输入转换

模型特点

高性能意大利语识别

在Common Voice意大利语测试集上达到9.41%的词错误率(WER)和2.29%的字符错误率(CER)

语言模型增强

结合语言模型后，词错误率可进一步降低至6.91%，字符错误率降至1.83%

多场景适用

在标准测试集和鲁棒语音赛事开发集上均表现良好，显示较强的泛化能力

易用集成

提供HuggingSound库和自定义脚本两种使用方式，便于快速集成到应用中

模型能力

意大利语语音转文本

16kHz音频处理

批量语音识别

长音频分块处理

使用案例

语音转录

意大利语语音内容转录

将意大利语语音内容转换为文本格式

高准确率的转录结果，适合内容存档和分析

语音助手

意大利语语音指令识别

用于意大利语语音助手系统中的指令识别

低延迟高准确率的指令识别

无障碍应用

语音转文字辅助

为听力障碍人士提供实时语音转文字服务

高准确率的实时转换

🚀 用于意大利语语音识别的微调XLSR - 53大模型

本模型是在意大利语语料上对 facebook/wav2vec2-large-xlsr-53 进行微调得到的，使用了 Common Voice 6.1 的训练集和验证集。使用此模型时，请确保语音输入的采样率为16kHz。

该模型的微调得益于 OVHcloud 慷慨提供的GPU计算资源。

训练脚本可在此处找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速开始

本模型基于 facebook/wav2vec2-large-xlsr-53 在意大利语数据集上微调而来，可用于意大利语的自动语音识别任务。使用时需注意语音输入的采样率为16kHz。

✨ 主要特性

微调模型：基于XLSR - 53大模型在意大利语上进行微调，适配意大利语语音识别。
多数据集支持：使用了Common Voice等数据集进行训练和评估。
指标评估：提供了词错误率（WER）和字符错误率（CER）等评估指标。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库（如huggingsound、transformers、librosa、datasets等）的官方安装说明。

💻 使用示例

基础用法

使用 HuggingSound 库进行语音识别：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-italian")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "it"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-italian"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分识别结果示例：

参考文本	预测文本
POI LEI MORÌ.	POI LEI MORÌ
IL LIBRO HA SUSCITATO MOLTE POLEMICHE A CAUSA DEI SUOI CONTENUTI.	IL LIBRO HA SUSCITATO MOLTE POLEMICHE A CAUSA DEI SUOI CONTENUTI
"FIN DALL'INIZIO LA SEDE EPISCOPALE È STATA IMMEDIATAMENTE SOGGETTA ALLA SANTA SEDE."	FIN DALL'INIZIO LA SEDE EPISCOPALE È STATA IMMEDIATAMENTE SOGGETTA ALLA SANTA SEDE
IL VUOTO ASSOLUTO?	IL VUOTO ASSOLUTO
DOPO ALCUNI ANNI, EGLI DECISE DI TORNARE IN INDIA PER RACCOGLIERE ALTRI INSEGNAMENTI.	DOPO ALCUNI ANNI EGLI DECISE DI TORNARE IN INDIA PER RACCOGLIERE ALTRI INSEGNAMENTI
SALVATION SUE	SALVATION SOO
IN QUESTO MODO, DECIO OTTENNE IL POTERE IMPERIALE.	IN QUESTO MODO DECHO OTTENNE IL POTERE IMPERIALE
SPARTA NOVARA ACQUISISCE IL TITOLO SPORTIVO PER GIOCARE IN PRIMA CATEGORIA.	PARCANOVARACFILISCE IL TITOLO SPORTIVO PER GIOCARE IN PRIMA CATEGORIA
IN SEGUITO, KYGO E SHEAR HANNO PROPOSTO DI CONTINUARE A LAVORARE SULLA CANZONE.	IN SEGUITO KIGO E SHIAR HANNO PROPOSTO DI CONTINUARE A LAVORARE SULLA CANZONE
ALAN CLARKE	ALAN CLARK

📚 详细文档

评估方法

在 mozilla-foundation/common_voice_6_0 数据集的 test 分割上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-italian --dataset mozilla-foundation/common_voice_6_0 --config it --split test

在 speech-recognition-community-v2/dev_data 数据集上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-italian --dataset speech-recognition-community-v2/dev_data --config it --split validation --chunk_length_s 5.0 --stride_length_s 1.0

模型指标

属性	详情
模型类型	用于意大利语语音识别的微调XLSR - 53大模型
训练数据	Common Voice、mozilla - foundation/common_voice_6_0
评估指标	词错误率（WER）、字符错误率（CER）

部分评估结果如下：

在Common Voice it数据集上：
- 测试集WER：9.41
- 测试集CER：2.29
- 测试集WER (+LM)：6.91
- 测试集CER (+LM)：1.83
在Robust Speech Event - Dev Data数据集上：
- 开发集WER：21.78
- 开发集CER：7.94
- 开发集WER (+LM)：15.82
- 开发集CER (+LM)：6.83

📄 许可证

本模型使用Apache 2.0许可证。

🔧 技术细节

本模型基于 facebook/wav2vec2-large-xlsr-53 进行微调，使用了 Common Voice 6.1 的训练集和验证集。在微调过程中，通过GPU计算资源进行训练，以适配意大利语的语音识别任务。

📚 引用说明

如果您想引用此模型，可以使用以下BibTeX格式：

@misc{grosman2021xlsr53-large-italian,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {I}talian},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-italian}},
  year={2021}
}