W

Wav2vec2 Large Xlsr 53 Toy Train Data Masked Audio 10ms

由 scasutt 开发
基于facebook/wav2vec2-large-xlsr-53微调的语音识别模型,在10ms音频掩码训练数据上优化
下载量 22
发布时间 : 3/28/2022

模型简介

该模型是针对语音识别任务优化的版本,通过微调提升了在特定条件下的识别准确率

模型特点

10ms音频掩码训练
使用10ms音频掩码的特殊训练方法,可能提高了模型对短时音频特征的识别能力
微调优化
基于预训练模型进行微调,在特定数据集上取得了更好的性能表现

模型能力

语音识别
音频特征提取

使用案例

语音转文字
语音转录
将语音内容转换为文字
词错误率0.4929
AIbase
智启未来,您的人工智能解决方案智库
简体中文