W

Wav2vec2 Conformer Rel Pos Large 100h Ft

由 facebook 开发
采用相对位置嵌入技术的Wav2Vec2-Conformer大型语音识别模型,基于Librispeech 100小时语音数据微调
下载量 99
发布时间 : 4/18/2022
模型介绍
内容详情
替代品

模型简介

这是一个基于Wav2Vec2-Conformer架构的自动语音识别(ASR)模型,采用相对位置嵌入技术,在Librispeech 100小时语音数据上微调,适用于16kHz采样率的英语语音识别任务。

模型特点

相对位置嵌入
采用相对位置嵌入技术,可能提升长序列语音识别的性能
Conformer架构
结合Transformer和CNN的优点,能同时捕捉局部和全局语音特征
高效训练
基于Librispeech 100小时数据微调,相比完整960小时数据训练更高效

模型能力

英语语音识别
16kHz采样率音频处理

使用案例

语音转文字
会议记录
将英语会议录音自动转换为文字记录
播客转录
将英语播客内容转录为文本