A

Asr Wav2vec2 Transformer Aishell

由 speechbrain 开发
这是一个基于AISHELL数据集和wav2vec2预训练的Transformer自动语音识别模型,专门用于普通话语音识别任务。
下载量 99
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个端到端的自动语音识别系统,结合了wav2vec2编码器和CTC+变换器的联合解码器,适用于普通话语音转录。

模型特点

端到端语音识别
提供完整的端到端解决方案,从音频输入到文本输出
wav2vec2预训练
利用wav2vec2的强大特征提取能力提高识别准确率
CTC+Transformer联合解码
结合CTC概率和Transformer解码器,提高识别效果
支持16kHz音频
自动处理16kHz采样率的单声道音频输入

模型能力

普通话语音识别
音频转录
自动语音识别

使用案例

语音转录
普通话语音转文字
将普通话语音内容转换为文字
测试集CER为5.58%
语音助手
中文语音指令识别
用于中文语音助手的语音指令识别