wav2vec2 - tcrs开源语音识别模型，微调后词错误率低，精准识别语音内容

首页

Wav2vec2 Tcrs

由 neelan-elucidate-ai 开发

基于facebook/wav2vec2-large-lv60微调的语音识别模型，在评估集上取得1.0657的词错误率

语音识别

Transformers

开源协议:Apache-2.0 #语音识别 #低词错误率 #微调模型

下载量 20

发布时间 : 5/4/2022

模型简介

该模型是用于语音识别任务的微调模型，基于wav2vec2架构，适用于将语音转换为文本的应用场景。

模型特点

低词错误率

在评估集上取得了1.0657的词错误率，表现优异

基于wav2vec2架构

采用facebook/wav2vec2-large-lv60作为基础模型，具有强大的语音特征提取能力

精细调优

经过100轮精细调优训练，模型性能得到显著提升

模型能力

语音转文本

自动语音识别

使用案例

语音转录

会议记录自动生成

将会议录音自动转换为文字记录

高准确率的转录结果

语音助手

用于语音助手的语音识别模块

快速准确的语音理解

无障碍应用

实时字幕生成

为听力障碍人士提供实时字幕服务

低延迟高准确率的字幕输出

🚀 wav2vec2-tcrs

本模型是在None数据集上对facebook/wav2vec2-large-lv60进行微调后的版本。它在评估集上取得了以下结果：

损失值（Loss）：2.9550
字错率（Wer）：1.0657

🚀 快速开始

本模型基于预训练模型进行微调，可用于语音相关任务。你可以根据自身需求，结合相关框架使用该模型。

📚 详细文档

模型描述

此模型是在特定数据集上对facebook/wav2vec2-large-lv60进行微调得到的，但关于模型的更多详细信息有待补充。

预期用途与限制

目前关于该模型的预期用途和限制的详细信息有待进一步完善。

训练和评估数据

目前关于训练和评估数据的详细信息有待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：0.0001
训练批次大小（train_batch_size）：1
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
优化器（optimizer）：Adam，β值为(0.9, 0.999)，ε值为1e - 08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：1000
训练轮数（num_epochs）：100
混合精度训练（mixed_precision_training）：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率
13.6613	3.38	500	3.2415	1.0
2.9524	6.76	1000	3.0199	1.0
2.9425	10.14	1500	3.0673	1.0
2.9387	13.51	2000	3.0151	1.0
2.9384	16.89	2500	3.0320	1.0
2.929	20.27	3000	2.9691	1.0
2.9194	23.65	3500	2.9596	1.0
2.9079	27.03	4000	2.9279	1.0
2.8957	30.41	4500	2.9647	1.0
2.8385	33.78	5000	2.8114	1.0193
2.6546	37.16	5500	2.6744	1.0983
2.5866	40.54	6000	2.6192	1.1071
2.5475	43.92	6500	2.5777	1.0950
2.5177	47.3	7000	2.5845	1.1220
2.482	50.68	7500	2.5730	1.1264
2.4343	54.05	8000	2.5722	1.0955
2.3754	57.43	8500	2.5781	1.1353
2.3055	60.81	9000	2.6177	1.0972
2.2446	64.19	9500	2.6351	1.1027
2.1625	67.57	10000	2.6924	1.0756
2.1078	70.95	10500	2.6817	1.0795
2.0366	74.32	11000	2.7629	1.0657
1.9899	77.7	11500	2.7972	1.0845
1.9309	81.08	12000	2.8450	1.0734
1.8861	84.46	12500	2.8703	1.0668
1.8437	87.84	13000	2.9308	1.0917
1.8192	91.22	13500	2.9298	1.0701
1.7952	94.59	14000	2.9488	1.0685
1.7745	97.97	14500	2.9550	1.0657