W

Wav2vec2 Conformer Rope Large 960h Ft

由 facebook 开发
该模型整合了旋转位置嵌入技术,基于16kHz采样的语音音频,在960小时的LibriSpeech数据上进行了预训练和精细调优,适用于英语语音识别任务。
下载量 22.02k
发布时间 : 4/18/2022
模型介绍
内容详情
替代品

模型简介

Wav2Vec2 Conformer模型结合了旋转位置嵌入技术,专注于高精度的英语语音识别,支持16kHz采样率的音频输入。

模型特点

旋转位置嵌入技术
采用旋转位置嵌入(RoPE)技术,提升了模型对长序列语音的处理能力。
大规模训练数据
基于960小时的LibriSpeech语音数据进行预训练和精细调优。
高精度识别
在LibriSpeech测试集上达到1.96(Clean)和3.98(Other)的词错率(WER)。

模型能力

英语语音识别
16kHz音频处理
长序列语音转录

使用案例

语音转录
会议记录转录
将会议录音自动转录为文字记录
高准确率的转录结果
语音笔记转换
将语音笔记转换为可编辑的文本
语音助手
语音指令识别
识别和理解用户的语音指令