wav2vec2-large-10min-lv60-self开源语音识别模型

首页

Wav2vec2 Large 10min Lv60 Self

由 Splend1dchan 开发

该模型是基于Wav2Vec2架构的大规模语音识别模型，在Libri-Light和Librispeech的10分钟数据上进行了预训练和微调，使用自训练目标进行训练，适用于16kHz采样率的语音音频。

语音识别

Transformers

英语开源协议:Apache-2.0 #低资源语音识别 #自监督学习 #16kHz音频处理

下载量 177

发布时间 : 4/12/2022

模型简介

Wav2Vec2 2.0是一个自动语音识别(ASR)模型，通过从原始语音音频中学习强大表示，再通过转录语音进行微调，实现了在有限标注数据下的高效语音识别。

模型特点

自训练目标

模型使用自训练目标进行训练，提高了在有限标注数据下的性能表现。

低资源语音识别

仅使用10分钟标注数据和53k小时无标注数据进行预训练，仍能实现较好的语音识别效果。

潜在空间掩码

在潜在空间中对语音输入进行掩码，并通过对比任务解决潜在表示的量化问题。

模型能力

语音识别

音频处理

自动语音转文本

使用案例

语音转写

会议记录

将会议录音自动转写为文字记录

语音笔记

将语音备忘录转换为可搜索的文本

辅助技术

听力辅助

为听力障碍人士提供实时语音转文字服务

🚀 Wav2Vec2-Large-10min-Lv60 + 自训练

本项目是将模型状态字典（state_dict）从fairseq直接迁移至Hugging Face，权重保持一致。Facebook的Wav2Vec2 是一个在16kHz采样的语音音频上，基于10分钟的Libri-Light和Librispeech数据进行预训练和微调的大型模型。该模型采用自训练目标进行训练。使用该模型时，请确保输入的语音也采样为16kHz。

论文

作者：Alexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auli

摘要

他们首次证明，先从纯语音音频中学习强大的表征，再在转录语音上进行微调，这种方法在概念上更简单的同时，还能超越最佳的半监督方法。wav2vec 2.0在潜在空间中对语音输入进行掩码处理，并解决了一个基于潜在表征量化的对比任务，这些潜在表征是联合学习得到的。在Librispeech的所有标注数据上进行实验，在干净/其他测试集上的字错率（WER）分别达到1.8%/3.3%。当将标注数据量减少到一小时时，wav2vec 2.0在100小时子集上的表现优于之前的最优方法，且使用的标注数据量减少了100倍。仅使用十分钟的标注数据并在53000小时的未标注数据上进行预训练，仍能达到4.8%/8.2%的WER。这证明了在有限标注数据下进行语音识别的可行性。

原始模型可在此处找到。

🚀 快速开始

数据集

librispeech_asr

许可证

apache-2.0

模型信息

属性	详情
模型类型	Wav2Vec2-Large-10min-Lv60 + 自训练
训练数据	10分钟的Libri-Light和Librispeech数据，采样率16kHz

💻 使用示例

基础用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# 加载模型和处理器
processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self")
model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self")

# 加载虚拟数据集并读取音频文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 分词
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values

# 获取对数概率
logits = model(input_values).logits

# 取最大值并解码
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高级用法

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

# 加载LibriSpeech测试集
librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

# 加载模型和处理器，并将模型移至GPU
model = Wav2Vec2ForCTC.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("Splend1dchan/wav2vec2-large-10min-lv60-self")

# 定义映射函数，用于预测转录结果
def map_to_pred(batch):
    inputs = processor(batch["audio"]["array"], return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

# 对测试集进行预测
result = librispeech_eval.map(map_to_pred, remove_columns=["speech"])

# 计算字错率（WER）
print("WER:", wer(result["text"], result["transcription"]))