data2vec-audio-large-10m开源音频大模型 - 适配语音任务，免费体验语音处理

首页

Data2vec Audio Large 10m

由 facebook 开发

Data2Vec是一个通用的自监督学习框架，适用于语音、视觉和语言任务。该音频大模型基于Librispeech的10分钟数据进行预训练和微调，适用于16kHz采样的语音音频。

语音识别

Transformers

英语开源协议:Apache-2.0 #自监督语音识别 #多模态统一框架 #16kHz音频处理

下载量 19

发布时间 : 4/2/2022

模型简介

Data2Vec-Audio-Large-10m是一个基于自监督学习的语音处理模型，主要用于语音识别任务。它采用统一的框架处理不同模态的数据，通过预测完整输入数据的潜在表示来实现高效学习。

模型特点

统一的自监督学习框架

采用相同的学习方法处理语音、自然语言处理和计算机视觉任务，实现了跨模态的统一学习。

上下文相关的潜在表示预测

不同于预测局部性质的目标，该模型预测包含整个输入信息的上下文相关潜在表示。

高性能表现

在语音识别、图像分类和自然语言理解等主要基准测试中达到最优或竞争性表现。

模型能力

语音识别

音频特征提取

使用案例

语音处理

语音转文本

将语音音频转换为文本内容

高准确率的语音识别结果

🚀 Data2Vec-Audio-Large-10m

Data2Vec-Audio-Large-10m是一个在16kHz采样的语音音频上，基于Librispeech数据集10分钟数据进行预训练和微调的大型模型。使用该模型时，请确保输入的语音也采样于16kHz。

🚀 快速开始

本模型是基于Facebook的Data2Vec框架开发的。你可以将其作为独立的声学模型来转录音频文件。使用时，要保证输入语音的采样率为16kHz。

✨ 主要特性

通用自监督学习框架：Data2Vec框架可在语音、NLP或计算机视觉领域使用相同的学习方法，朝着通用自监督学习迈进了一步。
预测上下文潜在表征：该模型预测包含整个输入信息的上下文潜在表征，而非特定模态的局部目标。
优异性能：在语音识别、图像分类和自然语言理解等主要基准测试中，展现出了新的最优水平或与主流方法相媲美的性能。

📚 详细文档

模型信息

属性	详情
模型类型	基于Data2Vec框架的语音模型
训练数据	Librispeech数据集10分钟的16kHz采样语音音频

论文信息

论文链接：Paper
作者：Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli
摘要：虽然自监督学习的总体思路在不同模态间是相同的，但实际的算法和目标却差异很大，因为它们是针对单一模态开发的。为了更接近通用自监督学习，我们提出了data2vec框架，该框架在语音、NLP或计算机视觉领域使用相同的学习方法。其核心思想是在自蒸馏设置中，使用标准的Transformer架构，基于输入的掩码视图来预测整个输入数据的潜在表征。与预测特定模态的局部目标（如单词、视觉标记或人类语音单元）不同，data2vec预测包含整个输入信息的上下文潜在表征。在语音识别、图像分类和自然语言理解等主要基准测试中的实验表明，该方法达到了新的最优水平或与主流方法具有竞争力。

预训练方法

model image

更多信息，请参考官方论文。

💻 使用示例

基础用法

from transformers import Wav2Vec2Processor, Data2VecForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("facebook/data2vec-audio-large-10m")
model = Data2VecForCTC.from_pretrained("facebook/data2vec-audio-large-10m")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1

# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)