wav2vec2-large-xlsr-53-spanish-ep5-944h开源模型 - 精准实现西班牙语自动语音识别

首页

Wav2vec2 Large Xlsr 53 Spanish Ep5 944h

由 carlosdanielhernandezmena 开发

适用于西班牙语自动语音识别的声学模型，基于facebook/wav2vec2-large-xlsr-53微调5个周期，使用约944小时西班牙语数据。

语音识别

Transformers

西班牙语#西班牙语语音识别 #多方言支持 #高精度WER

下载量 111

发布时间 : 12/1/2022

模型简介

该模型是专门为西班牙语语音识别设计的声学模型，通过在大规模西班牙语数据集上微调得到，适用于多种西班牙语语音识别场景。

模型特点

多数据集训练

使用了来自CIEMPIESS-UNAM项目和其他公共存储库的约944小时西班牙语数据进行训练

低WER

在多个测试集上表现出色，如Mozilla Common Voice 10.0测试集WER为9.20%

方言覆盖

训练数据包含多种西班牙语方言，如墨西哥、智利、哥伦比亚、秘鲁、阿根廷和波多黎各等地的西班牙语

模型能力

西班牙语语音识别

多种方言识别

高精度转录

使用案例

语音转录

广播新闻转录

用于转录西班牙语广播新闻内容

在HUB4NE测试集上WER为7.48%

电话语音转录

用于转录电话对话内容

在CALLHOME测试集上WER为39.12%

语音助手

西班牙语语音指令识别

用于西班牙语语音助手中的指令识别

🚀 wav2vec2-large-xlsr-53-spanish-ep5-944h

该模型是适用于西班牙语自动语音识别的声学模型。它通过对 "facebook/wav2vec2-large-xlsr-53" 模型进行 5 个周期的微调得到，使用了自 2012 年以来由 CIEMPIESS - UNAM 项目收集或开发的约 944 小时西班牙语数据。大部分数据可在 CIEMPIESS - UNAM 项目主页 http://www.ciempiess.org/ 上获取，其余数据可在 LDC 或 OpenSLR 等公共资源库中找到。

✨ 主要特性

适用场景：适用于西班牙语的自动语音识别任务。
数据来源广泛：使用了多个不同来源的西班牙语语料库进行微调。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from transformers import Wav2Vec2Processor
from transformers import Wav2Vec2ForCTC

#Load the processor and model.
MODEL_NAME="carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h"
processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_NAME)

#Load the dataset
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("ciempiess/ciempiess_test", split="test")

#Downsample to 16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))

#Process the dataset
def prepare_dataset(batch):
    audio = batch["audio"]
    #Batched output is "un-batched" to ensure mapping is correct
    batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
    with processor.as_target_processor():
        batch["labels"] = processor(batch["normalized_text"]).input_ids
    return batch
ds = ds.map(prepare_dataset, remove_columns=ds.column_names,num_proc=1)

#Define the evaluation metric
import numpy as np
wer_metric = load_metric("wer")
def compute_metrics(pred):
    pred_logits = pred.predictions
    pred_ids = np.argmax(pred_logits, axis=-1)
    pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id
    pred_str = processor.batch_decode(pred_ids)
    #We do not want to group tokens when computing the metrics
    label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
    wer = wer_metric.compute(predictions=pred_str, references=label_str)
    return {"wer": wer}

#Do the evaluation (with batch_size=1)
model = model.to(torch.device("cuda"))
def map_to_result(batch):
    with torch.no_grad():
        input_values = torch.tensor(batch["input_values"], device="cuda").unsqueeze(0)
        logits = model(input_values).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_str"] = processor.batch_decode(pred_ids)[0]
    batch["sentence"] = processor.decode(batch["labels"], group_tokens=False)
    return batch
results = ds.map(map_to_result,remove_columns=ds.column_names)

#Compute the overall WER now.
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["sentence"])))

测试结果：0.112

📚 详细文档

模型使用的数据集

该模型微调使用的具体语料库列表如下：

CIEMPIESS - LIGHT (18 小时 25 分钟)
CIEMPIESS - BALANCE (18 小时 20 分钟)
CIEMPIESS - FEM (13 小时 54 分钟)
CHM150 (1 小时 38 分钟)
TEDX_SPANISH (24 小时 29 分钟)
LIBRIVOX_SPANISH (73 小时 01 分钟)
WIKIPEDIA_SPANISH (25 小时 37 分钟)
VOXFORGE_SPANISH (49 小时 42 分钟)
MOZILLA COMMON VOICE 10.0 (320 小时 22 分钟)
HEROICO (16 小时 33 分钟)
LATINO - 40 (6 小时 48 分钟)
CALLHOME_SPANISH (13 小时 22 分钟)
HUB4NE_SPANISH (31 小时 41 分钟)
FISHER_SPANISH (127 小时 22 分钟)
智利西班牙语语音数据集 (7 小时 08 分钟)
哥伦比亚西班牙语语音数据集 (7 小时 34 分钟)
秘鲁西班牙语语音数据集 (9 小时 13 分钟)
阿根廷西班牙语语音数据集 (8 小时 01 分钟)
波多黎各西班牙语语音数据集 (1 小时 00 分钟)
MediaSpeech 西班牙语 (10 小时 00 分钟)
[DIMEX100 - LIGHT (6 小时 09 分钟)](https://turing.iimas.unam.mx/~luis/DIME/CORPUS - DIMEX.html)
[DIMEX100 - NIÑOS (08 小时 09 分钟)](https://turing.iimas.unam.mx/~luis/DIME/CORPUS - DIMEX.html)
[GOLEM - UNIVERSUM (00 小时 10 分钟)](https://turing.iimas.unam.mx/~luis/DIME/CORPUS - DIMEX.html)
GLISSANDO (6 小时 40 分钟)
TELE_con_CIENCIA (28 小时 16 分钟) 未发布材料
不可共享材料 (118 小时 22 分钟) 不可共享

微调信息

微调过程于 2022 年 11 月在冰岛雷克雅未克大学的语言与语音实验室 (https://lvl.ru.is/) 的服务器上由 Carlos Daniel Hernández Mena 完成。

评估结果

任务	数据集名称	数据集类型	划分	语言	指标	值
自动语音识别	Mozilla Common Voice 10.0 (Test)	mozilla - foundation/common_voice_10_0	test	西班牙语	WER	9.20
自动语音识别	Mozilla Common Voice 10.0 (Dev)	mozilla - foundation/common_voice_10_0	validation	西班牙语	WER	8.02
自动语音识别	CIEMPIESS - TEST	ciempiess/ciempiess_test	test	西班牙语	WER	11.17
自动语音识别	1997 Spanish Broadcast News Speech (HUB4 - NE)	HUB4NE_LDC98S74	test	西班牙语	WER	7.48
自动语音识别	CALLHOME Spanish Speech (Test)	callhome_LDC96S35	test	西班牙语	WER	39.12
自动语音识别	CALLHOME Spanish Speech (Dev)	callhome_LDC96S35	validation	西班牙语	WER	40.39

📄 许可证

本模型使用的许可证为 CC - BY - 4.0。

📖 BibTeX 引用信息

在发布基于这些模型的研究成果时，请参考以下引用：

@misc{mena2022xlrs53spanish,
      title={Acoustic Model in Spanish: wav2vec2-large-xlsr-53-spanish-ep5-944h.}, 
      author={Hernandez Mena, Carlos Daniel},
      url={https://huggingface.co/carlosdanielhernandezmena/wav2vec2-large-xlsr-53-spanish-ep5-944h},
      year={2022}
}

🙏 致谢

作者感谢墨西哥国立自治大学工程学院 (FI) 的社会服务项目 ["Desarrollo de Tecnologías del Habla"](http://profesores.fi - b.unam.mx/carlos_mena/servicio.html)，也感谢参与该社会服务项目的学生们的辛勤工作。

特别感谢语言与语音实验室负责人 Jón Guðnason 提供计算资源，使该模型得以实现。作者还感谢由 Almannarómur 管理和协调、冰岛教育、科学与文化部资助的 "2019 - 2023 年冰岛语言技术计划"。