data2vec-audio-base开源音频模型 - 支持语音、文本和视觉多模态任务

Data2vec Audio Base

由 facebook 开发

Facebook开发的通用自监督学习框架，支持语音、文本和视觉多模态任务的基础音频模型

下载量 5,694

发布时间 : 3/2/2022

模型简介

基于16kHz采样语音音频预训练的通用自监督学习模型，采用统一框架处理多模态任务，通过预测潜在表征而非特定目标实现跨模态学习

多模态统一框架

首次实现语音/NLP/CV三大模态的统一自监督学习架构

全局表征预测

预测包含全局上下文信息的潜在表征，而非传统局部目标（如单词/视觉标记）

自蒸馏架构

通过遮蔽输入视图预测完整输入的潜在表征，实现知识蒸馏

语音特征提取

跨模态表示学习

语音识别基础模型（需微调）

语音处理

语音识别系统

作为基础模型进行微调后用于ASR任务

论文报告在LibriSpeech基准测试达到SOTA性能

语音内容分析

提取语音的深层语义表征用于内容理解

本模型是基于16kHz采样语音音频进行预训练的基础模型。它源自Facebook的Data2Vec框架，为语音、自然语言处理和计算机视觉提供了统一的自监督学习方法。使用该模型时，请确保输入的语音也以16kHz采样。

本模型是在16kHz采样的语音音频上进行预训练的基础模型。使用模型时，请确保您的语音输入也是以16kHz采样的。

注意：此模型没有分词器，因为它仅在音频上进行了预训练。为了将此模型用于语音识别，需要创建一个分词器，并在带标签的文本数据上对模型进行微调。有关如何微调模型的详细解释，请查看此博客。

论文链接：https://arxiv.org/abs/2202.03555
作者：Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli
摘要：虽然自监督学习的总体思想在不同模态之间是相同的，但实际的算法和目标却有很大差异，因为它们是针对单一模态开发的。为了更接近通用的自监督学习，我们提出了Data2Vec框架，该框架对语音、自然语言处理或计算机视觉使用相同的学习方法。核心思想是在使用标准Transformer架构的自蒸馏设置中，基于输入的掩码视图预测完整输入数据的潜在表示。与预测本质上是局部的特定模态目标（如单词、视觉标记或人类语音单元）不同，Data2Vec预测包含整个输入信息的上下文潜在表示。在语音识别、图像分类和自然语言理解的主要基准测试上的实验表明，该方法达到了新的技术水平或与主流方法具有竞争力。