W

Wav2vec2 Conformer Rel Pos Large 960h Ft

由 facebook 开发
基于16kHz采样语音音频的Wav2Vec2-Conformer模型,采用相对位置嵌入技术,在960小时Librispeech数据上预训练和微调
下载量 1,038
发布时间 : 4/18/2022
模型介绍
内容详情
替代品

模型简介

这是一个用于自动语音识别(ASR)的Conformer架构模型,支持英语语音转录,具有高准确率和低词错误率(WER)

模型特点

相对位置嵌入
采用相对位置嵌入技术,提高了模型对语音序列位置关系的建模能力
高准确率
在LibriSpeech测试集上达到1.85(clean)和3.83(other)的词错误率(WER)
大规模训练
基于960小时的LibriSpeech语音数据进行预训练和微调

模型能力

英语语音识别
16kHz音频处理
长序列语音转录

使用案例

语音转录
会议记录
将会议录音自动转录为文字
高准确率的转录文本
语音笔记转换
将语音笔记转换为可编辑的文本
辅助技术
实时字幕生成
为视频或直播内容生成实时字幕