D

Data2vec Audio Base 100h

由 facebook 开发
Data2Vec是一个通用的自监督学习框架,适用于语音、视觉和语言任务。该音频基础模型基于Librispeech语音音频进行了100小时的预训练和微调。
下载量 4,369
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

Data2Vec-Audio是一个基于自监督学习的语音处理模型,采用统一的框架处理不同模态的数据。该模型通过预测完整输入数据的潜在表示进行训练,适用于语音识别等任务。

模型特点

通用自监督学习框架
采用相同的学习方法处理语音、自然语言处理和计算机视觉任务,实现跨模态的统一学习。
上下文潜在表示预测
不同于预测局部性质的目标,模型预测包含整个输入信息的上下文潜在表示。
高性能表现
在语音识别等主要基准测试中,性能达到新的最优水平或与主流方法相当。

模型能力

语音识别
音频特征提取

使用案例

语音处理
语音转文本
将语音音频转换为文本转录
高准确率的语音识别结果
语音数据分析
从语音中提取特征用于进一步分析
获取语音内容的潜在表示