开源Wav2Vec2-base-960h语音识别模型 - 免费支持英语语音转文本

首页

Wav2vec2 Base 960h

由 tommy19970714 开发

Wav2Vec2是一个基于自监督学习的语音识别模型，由Facebook开发，在LibriSpeech数据集上训练，支持英语语音转文本任务。

语音识别

Transformers

英语开源协议:Apache-2.0 #高精度语音识别 #英语语音转写 #端到端声学模型

下载量 19

发布时间 : 3/2/2022

模型简介

该模型是一个自动语音识别(ASR)系统，能够将英语语音转换为文本。基于Transformer架构，通过960小时的LibriSpeech数据训练。

模型特点

自监督学习

采用自监督学习方法预训练，减少了对手动标注数据的依赖

高准确率

在LibriSpeech测试集上达到3.4% (clean)和8.6% (other)的词错误率(WER)

端到端训练

直接从原始音频学习，无需传统语音识别系统中的独立组件

模型能力

英语语音识别

音频转文本

语音转录

使用案例

语音转写

会议记录

自动转录会议录音

准确率取决于音频质量，在清晰语音上可达96.6%

播客转录

将播客内容转换为文本

辅助技术

实时字幕生成

为视频或直播生成实时字幕

🚀 Wav2Vec2-Base-960h

本仓库是对Facebook官方的wav2vec的重新实现。目前没有关于将wav2vec 预训练模型转换为pytorch.bin文件的说明。我们正在从预训练模型重建pytorch.bin文件，以下是转换方法。

🚀 快速开始

本项目是对Facebook官方wav2vec的重新实现，重点在于将预训练模型转换为pytorch.bin文件。下面为你介绍具体的转换方法和使用示例。

📦 安装指南

pip install transformers[sentencepiece]
pip install fairseq -U

git clone https://github.com/huggingface/transformers.git
cp transformers/src/transformers/models/wav2vec2/convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py .

wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_small_960h.pt -O ./wav2vec_small_960h.pt
mkdir dict
wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt

mkdir outputs
python convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py --pytorch_dump_folder_path ./outputs --checkpoint_path ./wav2vec_small_960h.pt --dict_path ./dict

💻 使用示例

基础用法

将该模型用作独立的声学模型来转录音频文件，示例代码如下：

from transformers import Wav2Vec2Tokenizer, Wav2Vec2ForCTC
from datasets import load_dataset
import soundfile as sf
import torch

# load model and tokenizer
tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

# define function to read in sound file
def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch
    
# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
ds = ds.map(map_to_array)

# tokenize
input_values = tokenizer(ds["speech"][:2], return_tensors="pt", padding="longest").input_values  # Batch size 1

# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = tokenizer.batch_decode(predicted_ids)

高级用法

以下代码片段展示了如何在LibriSpeech的“clean”和“other”测试数据上评估 facebook/wav2vec2-base-960h 模型：

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
import soundfile as sf
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h").to("cuda")
tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

librispeech_eval = librispeech_eval.map(map_to_array)

def map_to_pred(batch):
    input_values = tokenizer(batch["speech"], return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = tokenizer.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["speech"])

print("WER:", wer(result["text"], result["transcription"]))