D

Data2vec Audio Large 10m

由 facebook 开发
Data2Vec是一个通用的自监督学习框架,适用于语音、视觉和语言任务。该音频大模型基于Librispeech的10分钟数据进行预训练和微调,适用于16kHz采样的语音音频。
下载量 19
发布时间 : 4/2/2022
模型介绍
内容详情
替代品

模型简介

Data2Vec-Audio-Large-10m是一个基于自监督学习的语音处理模型,主要用于语音识别任务。它采用统一的框架处理不同模态的数据,通过预测完整输入数据的潜在表示来实现高效学习。

模型特点

统一的自监督学习框架
采用相同的学习方法处理语音、自然语言处理和计算机视觉任务,实现了跨模态的统一学习。
上下文相关的潜在表示预测
不同于预测局部性质的目标,该模型预测包含整个输入信息的上下文相关潜在表示。
高性能表现
在语音识别、图像分类和自然语言理解等主要基准测试中达到最优或竞争性表现。

模型能力

语音识别
音频特征提取

使用案例

语音处理
语音转文本
将语音音频转换为文本内容
高准确率的语音识别结果