wav2vec2-large-xlsr-53-french开源语音识别模型 - 免费部署精准识别法语语音

首页

Wav2vec2 Large Xlsr 53 French

由 Ilyes 开发

这是一个基于wav2vec2架构的自动语音识别(ASR)模型，专门针对法语进行了微调，在Common Voice法语测试集上取得了12.82%的词错误率(WER)。

语音识别

Transformers

法语开源协议:Apache-2.0 #法语语音识别 #低词错误率 #XLSR微调

下载量 31

发布时间 : 3/2/2022

模型简介

该模型是一个法语语音识别模型，基于Facebook的wav2vec2-large-xlsr-53架构进行微调，能够将法语语音转换为文本。

模型特点

高性能法语识别

在Common Voice法语测试集上取得了12.82%的词错误率(WER)和4.40%的字符错误率(CER)

基于XLSR预训练模型

利用跨语言语音表示(XLSR)预训练模型进行微调，具有强大的语音特征提取能力

易于集成

提供Hugging Face Transformers兼容接口，便于在各种应用中集成使用

模型能力

法语语音识别

语音转文本

自动语音转录

使用案例

语音转录

法语语音转文字

将法语语音内容自动转换为文字

12.82% WER

语音助手

法语语音命令识别

用于法语语音助手的命令识别系统

🚀 大语言模型语音识别模型评估

本项目聚焦于法语语音识别，通过特定模型在Common Voice法语测试集上进行评估，为语音识别领域提供了有价值的参考。

🚀 快速开始

本项目的训练和评估脚本可在以下链接找到：https://github.com/irebai/wav2vec2

💻 使用示例

基础用法

import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import re

model_name = "Ilyes/wav2vec2-large-xlsr-53-french"

device = "cpu" # "cuda"

model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "fr", split="test", cache_dir="./data/fr")

chars_to_ignore_regex = '[\,\?\.\!\;\:\"\“\%\‘\”\�\‘\’\’\’\‘\…\·\!\ǃ\?\«\‹\»\›“\”\\ʿ\ʾ\„\∞\\|\.\,\;\:\*\—\–\─\―\_\/\:\ː\;\,\=\«\»\→]'
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch
resampler = torchaudio.transforms.Resample(48_000, 16_000)
    
ds = ds.map(map_to_array)

def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch
    
result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))