wav2vec2-base-libriSpeech开源语音识别模型 - 低错误率精准识别语音内容

Wav2vec2 Base Librispeech Demo Colab

由 vishwasgautam 开发

该模型是基于facebook/wav2vec2-base在LibriSpeech数据集上微调的语音识别模型，在评估集上取得了0.3174的词错误率。

下载量 14

发布时间 : 4/25/2025

模型简介

这是一个用于语音识别任务的微调模型，基于wav2vec2架构，适用于英语语音转文本任务。

基于wav2vec2架构

采用facebook的wav2vec2-base作为基础模型，具有良好的语音特征提取能力

低词错误率

在评估集上取得了0.3174的词错误率，表现良好

高效训练

使用混合精度训练(原生AMP)和线性学习率调度器，训练效率高

英语语音识别

语音转文本

语音转录

会议记录转录

将英语会议录音自动转录为文字记录

词错误率约31.74%

播客内容转录

将英语播客内容自动转换为文字稿