data2vec-audio-large开源语音模型 - 免费用于语音识别等任务

首页

Data2vec Audio Large

由 facebook 开发

Data2Vec-Audio-Large是基于16kHz采样语音音频预训练的大型模型，采用自监督学习框架，适用于语音识别等任务。

语音识别

Transformers

英语开源协议:Apache-2.0 #自监督学习 #语音表征学习 #多模态统一框架

下载量 97

发布时间 : 4/2/2022

模型简介

该模型是Facebook Data2Vec框架的音频实现版本，通过自蒸馏方式学习语音数据的潜在表征，可应用于语音识别等任务。

模型特点

统一的自监督学习框架

采用Data2Vec框架，可同时适用于语音、NLP和计算机视觉领域

上下文潜在表征预测

不同于预测局部目标，模型预测包含整个输入信息的上下文潜在表征

16kHz音频支持

专门针对16kHz采样的语音音频进行优化

模型能力

语音特征提取

自监督学习

语音识别基础模型

使用案例

语音处理

语音识别系统

作为基础模型用于构建语音识别系统

在语音识别基准测试中达到最优或超越主流方案

语音特征提取

提取语音的高级特征表示

🚀 数据2向量音频大模型（Data2Vec-Audio-Large）

Data2Vec-Audio-Large是一个在16kHz采样的语音音频上进行预训练的大模型。该模型为语音处理提供了强大的支持，在语音识别等任务中具有潜在的应用价值。

🚀 快速开始

本模型是在16kHz采样的语音音频上进行预训练的。在使用该模型时，请确保您的语音输入也是以16kHz采样的。

⚠️ 重要提示

此模型没有分词器，因为它仅在音频上进行了预训练。若要将此模型用于语音识别，则需要创建一个分词器，并在带标签的文本数据上对模型进行微调。有关如何微调模型的详细解释，请查看此博客。

✨ 主要特性

跨模态通用性：Facebook的Data2Vec 框架使用相同的学习方法处理语音、自然语言处理或计算机视觉任务，向通用自监督学习迈进了一步。
预测上下文潜在表示：模型预测包含整个输入信息的上下文潜在表示，而非特定模态的局部目标（如单词、视觉标记或人类语音单元）。
优异性能：在语音识别、图像分类和自然语言理解的主要基准测试中，展现出了新的技术水平或与主流方法相竞争的性能。

📚 详细文档

论文信息

论文链接：Paper
作者：Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli

摘要

虽然自监督学习的总体思想在不同模态间是相同的，但实际的算法和目标却差异很大，因为它们是针对单一模态开发的。为了更接近通用自监督学习，我们提出了Data2Vec框架，该框架对语音、自然语言处理或计算机视觉使用相同的学习方法。核心思想是在使用标准Transformer架构的自蒸馏设置中，基于输入的掩码视图预测完整输入数据的潜在表示。Data2Vec预测的是包含整个输入信息的上下文潜在表示，而不是预测本质上是局部的特定模态目标，如单词、视觉标记或人类语音单元。在语音识别、图像分类和自然语言理解的主要基准测试上的实验表明，该方法达到了新的技术水平，或与主流方法具有竞争力。

预训练方法

模型图像

更多信息，请查看官方论文。

使用方法

有关如何微调模型的更多信息，请参阅此笔记本。

模型相关信息

属性	详情
数据集	librispeech_asr
标签	speech
模型类型	基于Data2Vec框架的语音预训练模型
原始模型地址	https://github.com/pytorch/fairseq/tree/main/examples/data2vec