data2vec-audio-large-100h开源语音模型 - 支持多领域任务，经100小时预训练

首页

Data2vec Audio Large 100h

由 facebook 开发

Data2Vec是一个通用的自监督学习框架，适用于语音、自然语言处理和计算机视觉任务。该模型是基于Librispeech语音音频进行100小时预训练和微调的大模型。

语音识别

Transformers

英语开源协议:Apache-2.0 #自监督语音识别 #多模态统一框架 #16kHz音频适配

下载量 46

发布时间 : 4/2/2022

模型简介

Data2Vec-Audio-Large-100h是一个基于自监督学习的语音识别模型，能够处理16kHz采样的语音音频输入，并输出对应的文本转录。

模型特点

通用自监督学习框架

Data2Vec框架能够以相同的学习方法处理语音、自然语言处理和计算机视觉任务，实现跨模态的统一学习。

自蒸馏设置

模型基于输入数据的掩码视图，利用标准Transformer架构预测完整输入数据的潜在表征，而非局部性质的目标。

高性能

在语音识别、图像分类和自然语言理解等主要基准测试中，该方法达到了新的最优性能或与主流方法竞争的水平。

模型能力

语音识别

音频转录

使用案例

语音转录

音频文件转录

将16kHz采样的语音音频文件转录为文本。

高准确率的文本输出

🚀 Data2Vec-Audio-Large-100h

Data2Vec-Audio-Large-100h是一个在16kHz采样的语音音频上，基于100小时的Librispeech数据集进行预训练和微调的大型模型。使用该模型时，请确保输入的语音也是16kHz采样的。

🚀 快速开始

本模型可作为独立的声学模型来转录音频文件，示例代码如下：

 from transformers import Wav2Vec2Processor, Data2VecForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/data2vec-audio-large-100h")
 model = Data2VecForCTC.from_pretrained("facebook/data2vec-audio-large-100h")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"],, return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)

✨ 主要特性

跨模态通用框架：Facebook的Data2Vec 提供了一个通用的自监督学习框架，可用于语音、自然语言处理和计算机视觉等领域。
预测上下文潜在表示：该模型不预测特定模态的目标（如单词、视觉标记或人类语音单元），而是预测包含整个输入信息的上下文潜在表示。
优异性能：在语音识别、图像分类和自然语言理解等主要基准测试中，展现了新的技术水平或与主流方法相竞争的性能。

📚 详细文档

论文摘要

虽然自监督学习的总体思路在不同模态之间是相同的，但实际的算法和目标却有很大差异，因为它们是针对单一模态开发的。为了更接近通用的自监督学习，我们提出了Data2Vec框架，该框架在语音、NLP或计算机视觉中使用相同的学习方法。其核心思想是在使用标准Transformer架构的自蒸馏设置中，基于输入的掩码视图来预测整个输入数据的潜在表示。Data2Vec不预测特定模态的目标（如单词、视觉标记或人类语音单元，这些本质上是局部的），而是预测包含整个输入信息的上下文潜在表示。在语音识别、图像分类和自然语言理解等主要基准测试上的实验表明，该方法达到了新的技术水平，或与主流方法具有竞争力。

论文链接：Paper

作者：Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli