I

Iwslt Asr Wav2vec Large 4500h

由 nguyenvulebinh 开发
基于Wav2Vec2架构的大规模英语自动语音识别模型,在4500小时多源语音数据上微调,支持带语言模型的解码
下载量 27
发布时间 : 3/23/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于Facebook的Wav2Vec2架构微调的英语自动语音识别系统,整合了语言模型以提高转录准确率,适用于多种英语口音的语音转文本任务

模型特点

多源数据训练
在7个不同来源的语音数据集上训练,总时长超过4500小时
语言模型集成
提供带语言模型的处理器,显著降低词错误率
高性能转录
在自由语音测试集上达到1.1%的词错误率(带语言模型)

模型能力

英语语音识别
带语言模型的语音解码
多口音英语处理

使用案例

语音转录
会议记录
将英语会议录音自动转为文字记录
在自由语音测试集上词错误率仅1.1%
教育内容转录
将英语教学视频/音频转为文字
在TED演讲数据上词错误率5.4%