wav2vec2-base-1开源语音识别模型 - 免费使用精准识别语音内容

Wav2vec2 Base 1

由 jiobiala24 开发

基于facebook/wav2vec2-base在common_voice数据集上微调的语音识别模型

下载量 20

发布时间 : 3/2/2022

模型简介

该模型是用于语音识别任务的微调版本，基于wav2vec2架构，在common_voice数据集上训练，支持自动语音转文本功能。

高效微调

基于预训练的wav2vec2-base模型进行微调，充分利用预训练模型的强大特征提取能力

良好性能

在评估集上达到0.3216的词错误率(WER)，表现优于许多同类模型

优化训练

采用线性学习率调度和1000步预热，训练过程稳定高效

语音转文本

自动语音识别

语音转录

会议记录

将会议录音自动转换为文字记录

准确率约68%（基于WER 0.3216推断）

字幕生成

为视频内容自动生成字幕

语音助手

语音指令识别

识别用户语音指令并转换为可执行命令