D

Data2vec Audio Base 960h

由 facebook 开发
Data2Vec是一个通用的自监督学习框架,适用于语音、视觉和语言处理。该模型是基于LibriSpeech 960小时语音数据预训练和微调的语音识别模型。
下载量 10.61k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

Data2Vec-Audio是一个基于自监督学习的语音识别模型,使用相同的学习方法处理语音、自然语言处理或计算机视觉任务。其核心思想是在自蒸馏设置中预测完整输入数据的潜在表示。

模型特点

通用自监督学习框架
使用相同的学习方法处理语音、自然语言处理和计算机视觉任务,实现了跨模态的统一学习框架。
上下文潜在表示预测
不同于预测局部特性,该模型预测包含整个输入信息的上下文潜在表示,提高了模型的泛化能力。
高性能语音识别
在LibriSpeech测试集上取得了2.77(clean)和7.08(other)的WER指标,表现出色。

模型能力

语音识别
音频转录
英语语音处理

使用案例

语音转录
会议记录自动转录
将会议录音自动转录为文字记录,提高会议效率。
在标准测试集上WER低至2.77
播客内容索引
自动转录播客内容,便于内容搜索和索引。
处理不同口音语音时WER为7.08
辅助技术
听力辅助应用
为听力障碍者提供实时语音转文字服务。