W

Wav2vec2 Large 10min Lv60 Self

由 Splend1dchan 开发
该模型是基于Wav2Vec2架构的大规模语音识别模型,在Libri-Light和Librispeech的10分钟数据上进行了预训练和微调,使用自训练目标进行训练,适用于16kHz采样率的语音音频。
下载量 177
发布时间 : 4/12/2022
模型介绍
内容详情
替代品

模型简介

Wav2Vec2 2.0是一个自动语音识别(ASR)模型,通过从原始语音音频中学习强大表示,再通过转录语音进行微调,实现了在有限标注数据下的高效语音识别。

模型特点

自训练目标
模型使用自训练目标进行训练,提高了在有限标注数据下的性能表现。
低资源语音识别
仅使用10分钟标注数据和53k小时无标注数据进行预训练,仍能实现较好的语音识别效果。
潜在空间掩码
在潜在空间中对语音输入进行掩码,并通过对比任务解决潜在表示的量化问题。

模型能力

语音识别
音频处理
自动语音转文本

使用案例

语音转写
会议记录
将会议录音自动转写为文字记录
语音笔记
将语音备忘录转换为可搜索的文本
辅助技术
听力辅助
为听力障碍人士提供实时语音转文字服务