wav2vec2-5开源语音识别模型 - 免费部署助力自动语音识别任务

Wav2vec2 5

由 chrisvinsen 开发

基于facebook/wav2vec2-base微调的语音识别模型，主要用于自动语音识别(ASR)任务

下载量 20

发布时间 : 5/22/2022

模型简介

本模型是基于wav2vec2-base架构微调的语音识别模型，适用于将语音转换为文本的任务。

基于wav2vec2架构

采用Facebook Research开发的wav2vec2-base架构，具有良好的语音特征提取能力

微调优化

在基础模型上进行了微调训练，可能针对特定语音识别任务进行了优化

语音识别

音频转文本

语音转录

会议记录

将会议录音自动转换为文字记录

语音笔记

将语音备忘录转换为可搜索的文本

辅助技术

实时字幕生成

为视频或直播内容生成实时字幕

训练损失	轮数	步数	验证损失	字错率（Wer）
3.4082	1.37	200	3.3181	1.0
2.8798	2.74	400	2.9921	1.0
2.8703	4.11	600	3.1937	1.0
2.8643	5.48	800	3.0304	1.0
2.8655	6.85	1000	3.0321	1.0
2.8655	8.22	1200	3.0716	1.0
2.863	9.59	1400	3.1764	1.0
2.8567	10.96	1600	3.0600	1.0
2.861	12.33	1800	3.1761	1.0
2.8606	13.7	2000	3.1028	1.0
2.8613	15.07	2200	3.2119	1.0
2.8612	16.44	2400	3.1158	1.0
2.8603	17.81	2600	3.1230	1.0
2.8601	19.18	2800	3.0380	1.0
2.856	20.55	3000	3.0729	1.0
2.8557	21.92	3200	3.0511	1.0
2.8556	23.29	3400	3.0710	1.0
2.8552	24.66	3600	3.1364	1.0
2.8574	26.03	3800	3.0104	1.0
2.8543	27.4	4000	3.1068	1.0
2.8558	28.77	4200	3.0700	1.0