wav2vec2-large-xlsr-galician开源自动语音识别模型

首页

Wav2vec2 Large Xlsr Galician

由 ifrz 开发

针对加利西亚语优化的自动语音识别模型，基于wav2vec2-large-xlsr-53微调，WER指标7.12

语音识别

Transformers

#加利西亚语语音识别 #低WER(7.12)#XLSR微调

下载量 9,330

发布时间 : 4/29/2022

模型简介

这是一个专门用于加利西亚语语音识别的微调模型，基于Facebook的wav2vec2-large-xlsr-53架构，在OpenSLR和Common Voice数据集上进行了优化训练。

模型特点

低词错误率

在测试集上达到7.12%的词错误率(WER)，表现优异

多数据集训练

结合OpenSLR和Mozilla Common Voice两个高质量数据集进行微调

基于XLSR架构

利用跨语言语音表示学习(XLSR)的强大基础模型进行优化

模型能力

加利西亚语语音识别

音频转文本

16kHz单声道音频处理

使用案例

语音转录

加利西亚语语音转文字

将加利西亚语语音内容转换为准确文本

7.12%词错误率

语音助手

加利西亚语语音指令识别

用于加利西亚语语音助手系统的语音指令理解

🚀 wav2vec2-large-xlsr-galician

这是一个针对加利西亚语微调的语音识别模型，基于自监督模型构建，使用特定数据集进行训练，可实现准确的语音转录。

🚀 快速开始

本模型是针对加利西亚语的微调模型，基于 facebook/wav2vec2-large-xlsr-53 自监督模型构建。使用来自 OpenSLR 和 Mozilla Common_Voice 的标注音频进行微调（两个数据集此前均经过精炼处理）。可查看训练指标以了解结果。

✨ 主要特性

语言针对性：专为加利西亚语设计，能更好地处理该语言的语音识别任务。
模型基础：基于强大的自监督模型，为准确识别提供基础。
多数据集训练：使用多个数据集进行微调，提升模型的泛化能力。

📦 安装指南

文档未提及具体安装步骤，可根据 transformers 库的常规安装方法进行安装。例如，使用 pip 安装：

pip install transformers

💻 使用示例

基础用法

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

model = Wav2Vec2ForCTC.from_pretrained("ifrz/wav2vec2-large-xlsr-galician")
processor = Wav2Vec2Processor.from_pretrained("ifrz/wav2vec2-large-xlsr-galician")

# Reading taken audio clip
import librosa, torch
audio, rate = librosa.load("./gl_test_1.wav", sr = 16000)

# Taking an input value
input_values = processor(audio, sampling_rate=16_000, return_tensors = "pt", padding="longest").input_values
# Storing logits (non-normalized prediction values)
logits = model(input_values).logits
# Storing predicted ids
prediction = torch.argmax(logits, dim = -1)

# Passing the prediction to the tokenzer decode to get the transcription
transcription = processor.batch_decode(prediction)[0]
print(transcription)

注意事项

⚠️ 重要提示

确保音频输入采样率为 16kHz（单声道）。

📚 详细文档

模型信息

属性	详情
模型类型	针对加利西亚语微调的语音识别模型
训练数据	OpenSLR 77、mozilla-foundation common_voice_8_0
评估指标	WER（词错误率）
许可证	apache - 2.0