D

Data2vec Audio Large 100h

由 facebook 开发
Data2Vec是一个通用的自监督学习框架,适用于语音、自然语言处理和计算机视觉任务。该模型是基于Librispeech语音音频进行100小时预训练和微调的大模型。
下载量 46
发布时间 : 4/2/2022
模型介绍
内容详情
替代品

模型简介

Data2Vec-Audio-Large-100h是一个基于自监督学习的语音识别模型,能够处理16kHz采样的语音音频输入,并输出对应的文本转录。

模型特点

通用自监督学习框架
Data2Vec框架能够以相同的学习方法处理语音、自然语言处理和计算机视觉任务,实现跨模态的统一学习。
自蒸馏设置
模型基于输入数据的掩码视图,利用标准Transformer架构预测完整输入数据的潜在表征,而非局部性质的目标。
高性能
在语音识别、图像分类和自然语言理解等主要基准测试中,该方法达到了新的最优性能或与主流方法竞争的水平。

模型能力

语音识别
音频转录

使用案例

语音转录
音频文件转录
将16kHz采样的语音音频文件转录为文本。
高准确率的文本输出