speech-text开源自动语音识别模型 - 免费部署支持英语语音转文字

首页

Speech Text

由 abidlabs 开发

基于facebook/wav2vec2-large-xlsr-53在英语通用语音数据集上微调的自动语音识别模型，支持16kHz采样率的英语语音输入。

语音识别英语开源协议:Apache-2.0 #英语语音识别 #低词错误率 #XLSR微调

下载量 25

发布时间 : 3/7/2022

模型简介

这是一个用于英语自动语音识别(ASR)的模型，基于XLSR-53架构微调，能够将英语语音转换为文本。

模型特点

高性能英语语音识别

在通用语音英语测试集上达到19.06%的词错误率(WER)和7.69%的字错误率(CER)

支持语言模型增强

结合语言模型后，词错误率可降至14.81%，字错误率降至6.84%

16kHz采样率支持

专为16kHz采样率的语音输入优化

模型能力

英语语音识别

语音转文本

自动语音转录

使用案例

语音转录

会议记录转录

将英语会议录音自动转换为文字记录

准确率约80-85%(WER 14.81-19.06%)

播客内容转录

自动生成英语播客的文字稿

语音接口

语音助手

为英语语音助手提供语音识别能力

🚀 Wav2Vec2-Large-XLSR-53-English

本项目基于Common Voice英文数据集，对facebook/wav2vec2-large-xlsr-53模型进行了微调。使用该模型时，请确保语音输入的采样率为16kHz。

此模型的微调得益于OVHcloud慷慨提供的GPU算力支持。训练脚本可在此处找到。

🚀 快速开始

本模型基于英文的Common Voice数据集，对facebook/wav2vec2-large-xlsr-53进行了微调。使用该模型时，请确保语音输入的采样率为16kHz。

✨ 主要特性

基于大规模预训练模型facebook/wav2vec2-large-xlsr-53进行微调，提升英文语音识别效果。
可直接使用，也可结合语言模型使用。
提供了详细的使用示例和评估脚本。

📦 安装指南

文档未提及安装相关内容，可参考原模型及依赖库的安装说明进行安装。

💻 使用示例

基础用法

使用HuggingSound库进行语音识别：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分识别结果示例：

参考文本	预测文本
"SHE'LL BE ALL RIGHT."	SHE'LL BE ALL RIGHT
SIX	SIX
"ALL'S WELL THAT ENDS WELL."	ALL AS WELL THAT ENDS WELL
DO YOU MEAN IT?	DO YOU MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS.	THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESSION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE?	HOW IS MOSLILLAR GOING TO HANDLE ANDBEWOOTH HIS LIKE Q AND Q
"I GUESS YOU MUST THINK I'M KINDA BATTY."	RUSTIAN WASTIN PAN ONTE BATTLY
NO ONE NEAR THE REMOTE MACHINE YOU COULD RING?	NO ONE NEAR THE REMOTE MACHINE YOU COULD RING
SAUCE FOR THE GOOSE IS SAUCE FOR THE GANDER.	SAUCE FOR THE GUICE IS SAUCE FOR THE GONDER
GROVES STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD.	GRAFS STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD

📚 详细文档

评估

在mozilla-foundation/common_voice_6_0数据集的test分割上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset mozilla-foundation/common_voice_6_0 --config en --split test

在speech-recognition-community-v2/dev_data数据集上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset speech-recognition-community-v2/dev_data --config en --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 许可证

本项目采用apache-2.0许可证。

📚 引用

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021wav2vec2-large-xlsr-53-english,
  title={XLSR Wav2Vec2 English by Jonatas Grosman},
  author={Grosman, Jonatas},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-english}},
  year={2021}
}