wav2vec2-base-timit-demo-colab语音识别模型 - 开源免费低错误率精准识别语音

Wav2vec2 Base Timit Demo Colab

由 nawta 开发

基于facebook/wav2vec2-base模型在TIMIT数据集上微调的语音识别模型，具有较低的词错误率(WER)。

下载量 96

发布时间 : 6/27/2022

模型简介

该模型是用于英语语音识别的预训练模型，经过微调后在TIMIT数据集上表现出色。

低词错误率

在TIMIT数据集上取得了0.0168的词错误率(WER)，表现优异。

基于wav2vec2架构

采用facebook的wav2vec2-base架构，具有良好的语音特征提取能力。

微调优化

经过30轮次的精细微调，模型性能得到显著提升。

英语语音识别

音频转文本

语音内容分析

语音转录

会议记录

将英语会议录音自动转换为文字记录

准确率高达98.32% (WER=0.0168)

语音笔记

将口语笔记转换为可搜索的文本

语音助手

语音指令识别

识别并执行英语语音指令

训练损失	轮数	步数	验证损失	字错率（Wer）
4.5738	2.82	500	2.8712	1.0
1.3905	5.65	1000	0.2342	0.2124
0.1868	8.47	1500	0.1023	0.0697
0.0831	11.3	2000	0.0603	0.0339
0.0512	14.12	2500	0.0519	0.0263
0.0363	16.95	3000	0.0478	0.0228
0.0267	19.77	3500	0.0490	0.0228
0.0205	22.6	4000	0.0390	0.0182
0.0163	25.42	4500	0.0418	0.0184
0.0145	28.25	5000	0.0403	0.0168