data2vec-audio-base-100h开源音频模型 - 适用于多任务语音处理应用

首页

Data2vec Audio Base 100h

由 facebook 开发

Data2Vec是一个通用的自监督学习框架，适用于语音、视觉和语言任务。该音频基础模型基于Librispeech语音音频进行了100小时的预训练和微调。

语音识别

Transformers

英语开源协议:Apache-2.0 #自监督语音识别 #多模态统一框架 #16kHz音频处理

下载量 4,369

发布时间 : 3/2/2022

模型简介

Data2Vec-Audio是一个基于自监督学习的语音处理模型，采用统一的框架处理不同模态的数据。该模型通过预测完整输入数据的潜在表示进行训练，适用于语音识别等任务。

模型特点

通用自监督学习框架

采用相同的学习方法处理语音、自然语言处理和计算机视觉任务，实现跨模态的统一学习。

上下文潜在表示预测

不同于预测局部性质的目标，模型预测包含整个输入信息的上下文潜在表示。

高性能表现

在语音识别等主要基准测试中，性能达到新的最优水平或与主流方法相当。

模型能力

语音识别

音频特征提取

使用案例

语音处理

语音转文本

将语音音频转换为文本转录

高准确率的语音识别结果

语音数据分析

从语音中提取特征用于进一步分析

获取语音内容的潜在表示

🚀 Data2Vec-Audio-Base-100h

Data2Vec-Audio-Base-100h是一个基于16kHz采样语音音频，在100小时的Librispeech数据集上进行预训练和微调的基础模型。它源自Facebook的Data2Vec框架，可用于语音识别等任务。

🚀 快速开始

本模型可作为独立的声学模型对音频文件进行转录。使用时，请确保输入的语音也以16kHz采样。

✨ 主要特性

跨模态通用性：基于Facebook的Data2Vec框架，该框架使用相同的学习方法处理语音、自然语言处理或计算机视觉任务，朝着通用的自监督学习迈进了一步。
预测上下文潜在表征：与预测特定模态目标（如单词、视觉标记或人类语音单元）不同，data2vec预测包含整个输入信息的上下文潜在表征。
优异性能：在语音识别、图像分类和自然语言理解等主要基准测试中，展现了新的技术水平或与主流方法相媲美的性能。

📚 详细文档

模型信息

模型链接：Facebook's Data2Vec
论文链接：Paper
原模型仓库：https://github.com/pytorch/fairseq/tree/main/examples/data2vec

作者信息

作者包括Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu和Michael Auli。

摘要内容

自监督学习的总体思路在不同模态间是相同的，但实际的算法和目标却差异很大，因为它们是针对单一模态开发的。为了更接近通用的自监督学习，我们提出了data2vec框架，该框架对语音、自然语言处理或计算机视觉使用相同的学习方法。其核心思想是在使用标准Transformer架构的自蒸馏设置中，基于输入的掩码视图来预测整个输入数据的潜在表征。data2vec预测的是包含整个输入信息的上下文潜在表征，而非特定模态的局部目标，如单词、视觉标记或人类语音单元。在语音识别、图像分类和自然语言理解等主要基准测试上的实验表明，该方法达到了新的技术水平或与主流方法具有竞争力。

预训练方法

模型图片

更多信息请参考官方论文。

💻 使用示例

基础用法

from transformers import Wav2Vec2Processor, Data2VecForCTC
from datasets import load_dataset
import torch

# 加载模型和处理器
processor = Wav2Vec2Processor.from_pretrained("facebook/data2vec-audio-base-100h")
model = Data2VecForCTC.from_pretrained("facebook/data2vec-audio-base-100h")

# 加载虚拟数据集并读取音频文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 进行分词
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # 批量大小为1

# 获取对数几率
logits = model(input_values).logits

# 取最大值并解码
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)