W

W2v Timit Ft 4001

由 devin132 开发
基于Wav2Vec 2.0架构的语音识别模型,在TIMIT数据集上微调,适用于英语语音转文本任务
下载量 22
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是Facebook Wav2Vec 2.0的变体,专门针对TIMIT语音数据集进行微调,用于高精度英语语音识别

模型特点

端到端语音识别
直接从原始音频波形生成文本,无需传统语音识别流程中的声学特征提取步骤
自监督预训练
采用大规模无监督预训练+有监督微调的两阶段训练方式
上下文感知
Transformer架构能够捕捉长距离语音上下文依赖关系

模型能力

英语语音识别
音频波形直接处理
说话人无关识别

使用案例

语音转写
会议记录自动化
将英语会议录音自动转换为文字记录
在TIMIT测试集上达到约5%的词错误率
辅助技术
语音控制界面
为残障人士提供语音控制设备的识别能力