D

Data2vec Audio Base

由 facebook 开发
Facebook开发的通用自监督学习框架,支持语音、文本和视觉多模态任务的基础音频模型
下载量 5,694
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

基于16kHz采样语音音频预训练的通用自监督学习模型,采用统一框架处理多模态任务,通过预测潜在表征而非特定目标实现跨模态学习

模型特点

多模态统一框架
首次实现语音/NLP/CV三大模态的统一自监督学习架构
全局表征预测
预测包含全局上下文信息的潜在表征,而非传统局部目标(如单词/视觉标记)
自蒸馏架构
通过遮蔽输入视图预测完整输入的潜在表征,实现知识蒸馏

模型能力

语音特征提取
跨模态表示学习
语音识别基础模型(需微调)

使用案例

语音处理
语音识别系统
作为基础模型进行微调后用于ASR任务
论文报告在LibriSpeech基准测试达到SOTA性能
语音内容分析
提取语音的深层语义表征用于内容理解