wav2vec2-base_toy_train_data_random_low_pass开源语音识别模型

Wav2vec2 Base Toy Train Data Random Low Pass

由 scasutt 开发

该模型是基于facebook/wav2vec2-base在未知数据集上微调的语音识别模型，主要用于自动语音识别(ASR)任务。

下载量 29

发布时间 : 3/31/2022

模型简介

这是一个基于wav2vec2架构的语音识别模型，经过微调后可用于将语音转换为文本。模型在评估集上取得了0.7288的词错误率。

基于wav2vec2架构

采用Facebook开发的wav2vec2-base作为基础架构，具有良好的语音识别能力

微调优化

在特定数据集上进行微调，可能针对特定领域或场景优化了识别性能

低通滤波处理

模型名称中包含'low_pass'，可能对音频进行了低通滤波处理

语音识别

音频转文本

语音转录

会议记录

将会议录音自动转换为文字记录

语音笔记

将语音备忘录转换为可搜索的文本

训练损失值（Training Loss）	轮数（Epoch）	步数（Step）	验证损失值（Validation Loss）	字错率（Wer）
3.0795	2.1	500	3.2227	0.9982
1.21	4.2	1000	1.3713	0.8879
0.742	6.3	1500	1.2660	0.8296
0.5877	8.4	2000	1.2921	0.7794
0.4823	10.5	2500	1.2899	0.7565
0.4036	12.6	3000	1.3486	0.7494
0.391	14.7	3500	1.2701	0.7466
0.3426	16.81	4000	1.3570	0.7279
0.3015	18.91	4500	1.3227	0.7288