wav2vec2-large-english开源自动语音识别模型

首页

Wav2vec2 Large English

由 jonatasgrosman 开发

基于facebook/wav2vec2-large在英语上进行了微调的自动语音识别模型，使用Common Voice 6.1数据集训练

语音识别

Transformers

英语开源协议:Apache-2.0 #英语语音识别 #低词错误率 #通用语音适配

下载量 355

发布时间 : 3/2/2022

模型简介

针对英语语音识别任务优化的wav2vec2大型模型，支持16kHz采样率的语音输入

模型特点

高性能英语识别

在Common Voice英语测试集上达到21.53% WER和9.66% CER

基于大型预训练模型

基于facebook/wav2vec2-large模型微调，具有强大的语音特征提取能力

16kHz采样率支持

专为16kHz采样率的语音输入优化

模型能力

英语语音识别

音频转文本

自动语音转录

使用案例

语音转录

会议记录自动转录

将英语会议录音自动转换为文字记录

准确率约80% (基于WER指标)

播客内容转录

将英语播客节目自动转换为文字内容

语音助手

英语语音指令识别

用于智能设备的英语语音指令识别系统

🚀 用于英语语音识别的微调wav2vec2大模型

本模型基于 facebook/wav2vec2-large，使用 Common Voice 6.1 的训练集和验证集对英语进行了微调。使用此模型时，请确保您的语音输入采样率为 16kHz。

该模型的微调得益于 OVHcloud 慷慨提供的 GPU 计算资源，在此表示感谢。

训练使用的脚本可在此处找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速开始

本模型是基于 facebook/wav2vec2-large 进行微调的英语语音识别模型，使用 Common Voice 6.1 数据集。使用时需注意语音输入采样率为 16kHz。

✨ 主要特性

基于预训练的 facebook/wav2vec2-large 模型进行微调。
在英语语音识别任务上表现良好。
得益于 OVHcloud 提供的 GPU 资源进行训练。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库的安装说明，如 HuggingSound、transformers、torch、librosa、datasets 等。

💻 使用示例

基础用法

使用 HuggingSound 库：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分预测结果示例：

参考文本	预测文本
"SHE'LL BE ALL RIGHT."	SHELL BE ALL RIGHT
SIX	SIX
"ALL'S WELL THAT ENDS WELL."	ALLAS WELL THAT ENDS WELL
DO YOU MEAN IT?	W MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS.	THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESTION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE?	HOW IS MOSILLA GOING TO BANDL AND BE WHIT IS LIKE QU AND QU
"I GUESS YOU MUST THINK I'M KINDA BATTY."	RUSTION AS HAME AK AN THE POT
NO ONE NEAR THE REMOTE MACHINE YOU COULD RING?	NO ONE NEAR THE REMOTE MACHINE YOU COULD RING
SAUCE FOR THE GOOSE IS SAUCE FOR THE GANDER.	SAUCE FOR THE GUCE IS SAUCE FOR THE GONDER
GROVES STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD.	GRAFS STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD

📚 详细文档

评估

该模型可以在 Common Voice 的英语（en）测试数据上进行如下评估：

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-english"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

测试结果：以下表格报告了该模型的单词错误率（WER）和字符错误率（CER）。在 2021 年 6 月 17 日，我也在其他模型上运行了上述评估脚本。请注意，以下表格可能显示与已报告结果不同的结果，这可能是由于使用的其他评估脚本的某些特殊性造成的。

模型	单词错误率（WER）	字符错误率（CER）
jonatasgrosman/wav2vec2-large-xlsr-53-english	18.98%	8.29%
jonatasgrosman/wav2vec2-large-english	21.53%	9.66%
facebook/wav2vec2-large-960h-lv60-self	22.03%	10.39%
facebook/wav2vec2-large-960h-lv60	23.97%	11.14%
boris/xlsr-en-punctuation	29.10%	10.75%
facebook/wav2vec2-large-960h	32.79%	16.03%
facebook/wav2vec2-base-960h	39.86%	19.89%
facebook/wav2vec2-base-100h	51.06%	25.06%
elgeish/wav2vec2-large-lv60-timit-asr	59.96%	34.28%
facebook/wav2vec2-base-10k-voxpopuli-ft-en	66.41%	36.76%
elgeish/wav2vec2-base-timit-asr	68.78%	36.81%

📄 许可证

本模型采用 Apache-2.0 许可证。

📚 引用

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021wav2vec2-large-english,
  title={Fine-tuned wav2vec2 large model for speech recognition in {E}nglish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-english}},
  year={2021}
}