xlsr_wav2vec_english开源自动语音识别模型 - 免费部署精准识别英语语音

首页

Xlsr Wav2vec English

由 harshit345 开发

基于facebook/wav2vec2-large在通用语音数据集上进行英语微调的自动语音识别模型，支持16kHz采样率的语音输入。

语音识别

Transformers

英语开源协议:Apache-2.0 #英语语音识别 #WER 21.53%#16kHz采样率

下载量 27

发布时间 : 3/2/2022

模型简介

这是一个用于英语自动语音识别(ASR)的Wav2Vec2模型，经过微调后可直接使用，无需额外语言模型。

模型特点

高精度识别

在通用语音英语测试集上达到21.53%的词错误率和9.66%的字符错误率

无需语言模型

可直接使用，无需额外语言模型支持

16kHz采样率支持

专门针对16kHz采样率的语音输入进行优化

模型能力

英语语音识别

音频转录

自动语音转文本

使用案例

语音转录

会议记录

将会议录音自动转录为文字记录

播客转文字

将英语播客内容自动转换为文字稿

辅助技术

语音控制

为应用程序添加语音控制功能

🚀 Wav2vec2-Large-English

Wav2vec2-Large-English 是基于 Common Voice 英文数据集对 facebook/wav2vec2-large 进行微调得到的模型。使用此模型时，请确保语音输入的采样率为 16kHz。

🚀 快速开始

本模型可直接使用（无需语言模型），以下是具体使用方法。

✨ 主要特性

数据集：使用 Common Voice 英文数据集进行微调。
评估指标：支持字错误率（WER）和字符错误率（CER）评估。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

使用 ASRecognition 库：

from asrecognition import ASREngine

asr = ASREngine("fr", model_path="jonatasgrosman/wav2vec2-large-english")

audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
transcriptions = asr.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是预测结果示例：

参考文本	预测文本
"SHE'LL BE ALL RIGHT."	SHELL BE ALL RIGHT
SIX	SIX
"ALL'S WELL THAT ENDS WELL."	ALLAS WELL THAT ENDS WELL
DO YOU MEAN IT?	W MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS.	THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESTION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE?	HOW IS MOSILLA GOING TO BANDL AND BE WHIT IS LIKE QU AND QU
"I GUESS YOU MUST THINK I'M KINDA BATTY."	RUSTION AS HAME AK AN THE POT
NO ONE NEAR THE REMOTE MACHINE YOU COULD RING?	NO ONE NEAR THE REMOTE MACHINE YOU COULD RING
SAUCE FOR THE GOOSE IS SAUCE FOR THE GANDER.	SAUCE FOR THE GUCE IS SAUCE FOR THE GONDER
GROVES STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD.	GRAFS STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD

📚 详细文档

评估方法

本模型可在 Common Voice 英文测试数据上进行评估，以下是评估代码：

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-english"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

测试结果

以下表格展示了本模型及其他模型的字错误率（WER）和字符错误率（CER）。需要注意的是，表格中的结果可能与其他评估脚本的结果不同，这可能是由于使用的评估脚本存在差异。

模型	字错误率（WER）	字符错误率（CER）
wav2vec2-large-xlsr-53-english	18.98%	8.29%
wav2vec2-large-xlsr-53-greek	18.99%	10.60%
wav2vec2-large-xlsr-53-hindi	20.01%	9.66%
wav2vec2-large-960h-lv60-english	22.03%	10.39%
wav2vec2-base-100h-lv60-english	24.97%	11.14%