wav2vec2-large-100k-voxpopuli-catala开源模型 - 精准识别加泰罗尼亚语语音

首页

Wav2vec2 Large 100k Voxpopuli Catala

由 ccoreilly 开发

基于facebook/wav2vec2-large-100k-voxpopuli模型微调的加泰罗尼亚语语音识别模型

语音识别其他开源协议:Apache-2.0 #加泰罗尼亚语语音识别 #低词错误率 #议会语音优化

下载量 56

发布时间 : 3/2/2022

模型简介

这是一个针对加泰罗尼亚语的自动语音识别(ASR)模型，使用Common Voice和ParlamentParla数据集进行微调，能够将加泰罗尼亚语语音转换为文本。

模型特点

多数据集训练

结合使用Common Voice和ParlamentParla两个数据集进行训练，提高模型泛化能力

低词错误率

在测试集上达到5.98%的词错误率(WER)，表现优异

16kHz采样率支持

专门优化支持16kHz采样率的语音输入

模型能力

加泰罗尼亚语语音识别

语音转文本

自动语音识别

使用案例

语音转录

议会发言转录

将加泰罗尼亚议会发言录音转换为文字记录

在ParlamentParla数据集上表现良好

语音助手

为加泰罗尼亚语语音助手提供语音识别能力

教育

语言学习应用

用于加泰罗尼亚语学习应用的发音评估功能

🚀 加泰罗尼亚语VoxPopuli Wav2Vec2大模型

本模型基于facebook/wav2vec2-large-100k-voxpopuli，使用Common Voice和ParlamentParla数据集对加泰罗尼亚语进行微调。它可用于音频、自动语音识别、语音和语音转文本等任务。

🚀 快速开始

重要提示

⚠️ 重要提示

此模型已迁移至以下URL：https://huggingface.co/softcatala/wav2vec2-large-100k-voxpopuli-catala

注意事项

⚠️ 重要提示

所使用的训练/开发/测试拆分与CommonVoice 6.1数据集并不完全匹配。使用了结合CommonVoice和ParlamentParla数据集的自定义拆分，可在此处找到。在CV测试数据集上进行评估会产生有偏差的字错误率（WER），因为该数据集中的1144个音频文件已用于此模型的训练/评估。WER是使用此test.csv计算的，该文件在模型训练/评估期间未被模型看到。

使用建议

💡 使用建议

使用此模型时，请确保您的语音输入采样率为16kHz。

✨ 主要特性

多数据集训练：使用Common Voice和ParlamentParla数据集进行训练，提升模型在加泰罗尼亚语上的性能。
特定领域优化：针对加泰罗尼亚语语音识别进行了微调，适用于相关语音处理任务。

📦 安装指南

文档未提供具体安装步骤，可参考原模型facebook/wav2vec2-large-100k-voxpopuli的安装说明。

💻 使用示例

基础用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "ca", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("ccoreilly/wav2vec2-large-100k-voxpopuli-catala") 
model = Wav2Vec2ForCTC.from_pretrained("ccoreilly/wav2vec2-large-100k-voxpopuli-catala")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])