wav2vec2-large-robust-ft-libri-960h开源语音识别模型

首页

Wav2vec2 Large Robust Ft Libri 960h

由 facebook 开发

该模型是Facebook Wav2Vec2的微调版本，专注于语音识别任务，在多种语音数据上预训练并在Librispeech上微调，具有鲁棒性强的特点。

语音识别

Transformers

英语开源协议:Apache-2.0 #多领域语音识别 #鲁棒性音频处理 #16kHz采样率适配

下载量 161.65k

发布时间 : 3/2/2022

模型简介

这是一个自动语音识别(ASR)模型，基于wav2vec2-large-robust架构，在多种语音数据上预训练并在960小时的Librispeech数据上微调，适用于英语语音转文本任务。

模型特点

多领域预训练

模型在多种语音数据上预训练，包括朗读音频(Libri-Light)、众包语音(CommonVoice)和电话语音(Switchboard/Fisher)，增强了鲁棒性。

目标领域微调

在960小时的Librispeech朗读音频数据上进行了微调，提高了在朗读语音场景下的识别准确率。

鲁棒性强

专门设计用于处理不同领域的语音数据，在领域内外数据上表现良好，性能差距缩小66%-73%。

模型能力

英语语音识别

朗读音频转录

电话语音转录

众包语音转录

使用案例

语音转录

有声书转录

将朗读的有声书音频转换为文本

在Librispeech测试集上表现良好

电话语音转录

转录电话通话内容

在Switchboard和Fisher数据集上表现良好

语音助手

语音指令识别

识别用户语音指令并转换为文本

适用于多种语音环境

🚀 Wav2Vec2-Large-Robust在Librispeech上微调版

本项目基于Facebook的Wav2Vec2模型。此模型是wav2vec2-large-robust模型的微调版本，在多个数据集上进行了预训练和微调，可用于语音识别任务，为语音处理领域提供了强大的工具。

✨ 主要特性

多数据集预训练：该模型在多个数据集上进行了预训练，包括Libri-Light（来自LibriVox项目的开源有声书籍，干净的朗读音频数据）、CommonVoice（众包收集的音频数据，朗读的文本片段）、Switchboard（电话语音语料库，嘈杂的电话数据）和Fisher（对话式电话语音，嘈杂的电话数据）。
特定数据集微调：在960小时的Librispeech（开源朗读音频数据）上进行了微调。
采样率要求：使用模型时，确保语音输入的采样率为16Khz。

📚 详细文档

模型背景

该模型基于Facebook的Wav2Vec2，是一种自监督学习的语音表示模型。自监督学习在语音表示学习领域是一个非常活跃的研究方向，但大多数工作都集中在单一领域，如朗读有声书籍，因为这些领域存在大量有标签和无标签的数据。

研究内容

本文探索了更通用的设置，即预训练的无标签数据的领域与微调的有标签数据的领域不同，而这又可能与测试数据的领域不同。实验表明，在预训练期间使用目标领域数据可以在各种设置下显著提高性能。在大规模竞争设置中，在无标签的领域内数据上进行预训练可以将在领域内和领域外有标签数据上训练的模型之间的差距缩小66%-73%。这具有明显的实际意义，因为获取无标签的目标领域数据比获取有标签的数据要容易得多。此外，在多个领域上进行预训练可以提高在训练期间未见过的领域上的泛化性能。

论文信息

论文标题：Paper Robust Wav2Vec2
作者：Wei-Ning Hsu, Anuroop Sriram, Alexei Baevski, Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Jacob Kahn, Ann Lee, Ronan Collobert, Gabriel Synnaeve, Michael Auli
摘要：语音表示的自监督学习一直是一个非常活跃的研究领域，但大多数工作都集中在单一领域，如朗读有声书籍，因为这些领域存在大量有标签和无标签的数据。在本文中，我们探索了更通用的设置，即预训练的无标签数据的领域与微调的有标签数据的领域不同，而这又可能与测试数据的领域不同。我们的实验表明，在预训练期间使用目标领域数据可以在各种设置下显著提高性能。在大规模竞争设置中，我们表明在无标签的领域内数据上进行预训练可以将在领域内和领域外有标签数据上训练的模型之间的差距缩小66%-73%。这具有明显的实际意义，因为获取无标签的目标领域数据比获取有标签的数据要容易得多。此外，我们发现在多个领域上进行预训练可以提高在训练期间未见过的领域上的泛化性能。代码和模型将在这个URL上提供。

原模型地址

原模型可在https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

💻 使用示例

基础用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import soundfile as sf
import torch

# 加载模型和处理器
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-robust-ft-libri-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-robust-ft-libri-960h")

# 定义读取音频文件的函数
def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

# 加载虚拟数据集并读取音频文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
ds = ds.map(map_to_array)

# 分词
input_values = processor(ds["speech"][:2], return_tensors="pt", padding="longest").input_values  # 批量大小为1

# 获取对数概率
logits = model(input_values).logits

# 取最大值并解码
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

📄 许可证

本模型使用的许可证为apache-2.0。

📦 数据集信息

属性	详情
训练数据集	Libri-Light、CommonVoice、Switchboard、Fisher、Librispeech
标签	语音、音频、自动语音识别
示例	Librispeech sample 1、Librispeech sample 2