wav2vec2-large-xls-r-300m-breton-cv8开源模型 - 助力布列塔尼语语音识别

首页

Wav2vec2 Large Xls R 300m Breton Cv8

由 infinitejoy 开发

这是一个基于facebook/wav2vec2-xls-r-300m在布列塔尼语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #布列塔尼语语音识别 #低资源语言处理 #多语言语音模型

下载量 17

发布时间 : 3/2/2022

模型简介

该模型专门用于布列塔尼语的自动语音识别任务，在Common Voice 8数据集上进行了微调

模型特点

布列塔尼语支持

专门针对布列塔尼语优化的语音识别模型

基于XLS-R架构

使用强大的wav2vec2-xls-r-300m作为基础模型

Common Voice数据集训练

在Mozilla Common Voice 8的布列塔尼语数据集上微调

模型能力

布列塔尼语语音识别

语音转文本

使用案例

语音转录

布列塔尼语语音转录

将布列塔尼语语音转换为文本

测试WER 54.855，测试CER 17.865

语音助手

布列塔尼语语音助手

支持布列塔尼语的语音交互应用

🚀 XLS-R-300M - 布列塔尼语

该模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BR 数据集上的微调版本。它在评估集上取得了以下结果：

损失：未提供
词错误率（Wer）：未提供

✨ 主要特性

适用于自动语音识别任务。
基于 Mozilla 基金会的 Common Voice 8.0 布列塔尼语数据集进行微调。

📦 安装指南

文档中未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F


model_id = "infinitejoy/wav2vec2-large-xls-r-300m-breton-cv8"

sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "br", split="test", streaming=True, use_auth_token=True))

sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

transcription = processor.batch_decode(logits.numpy()).text

评估命令

1. 在 `mozilla-foundation/common_voice_8_0` 数据集的 `test` 分割上进行评估

python eval.py --model_id infinitejoy/wav2vec2-large-xls-r-300m-breton-cv8 --dataset mozilla-foundation/common_voice_8_0 --config br --split test

2. 在 `speech-recognition-community-v2/dev_data` 数据集上进行评估

python eval.py --model_id infinitejoy/wav2vec2-large-xls-r-300m-breton-cv8 --dataset speech-recognition-community-v2/dev_data --config br --split validation --chunk_length_s 5.0 --stride_length_s 1.0