unispeech-sat-base-plus-timit-ft开源自动语音识别模型

Unispeech Sat Base Plus Timit Ft

由 patrickvonplaten 开发

基于microsoft/unispeech-sat-base-plus在TIMIT_ASR数据集上微调的自动语音识别(ASR)模型

下载量 16

发布时间 : 3/2/2022

模型简介

该模型是针对英语语音识别任务优化的神经网络模型，特别适用于学术研究和语音识别系统开发

TIMIT数据集微调

专门在标准TIMIT语音识别数据集上进行微调，优化了英语语音识别性能

基于UniSpeech-SAT架构

采用微软UniSpeech-SAT基础模型，结合自注意力机制进行语音特征提取

逐步优化训练

通过20轮训练逐步降低词错误率(WER)，最终达到0.4051的识别准确率

英语语音识别

连续语音转文本

语音特征提取

学术研究

语音识别基准测试

可作为TIMIT数据集上的基准模型进行比较研究

词错误率0.4051

语音技术开发

语音转文本系统

用于开发英语语音识别应用

本模型是 microsoft/unispeech-sat-base-plus 在 TIMIT_ASR - NA 数据集上的微调版本。它在评估集上取得了以下结果：

此模型为语音识别领域的预训练模型微调版本，可用于自动语音识别任务，在 TIMIT_ASR - NA 数据集上有特定的评估表现。

该模型基于 microsoft/unispeech-sat-base-plus 进行微调，更多信息待补充。

更多信息待补充。

更多信息待补充。

训练期间使用了以下超参数：

训练损失	轮数	步数	验证损失	字错率（Wer）
3.3838	0.69	100	3.2528	1.0
2.9608	1.38	200	2.9682	1.0
2.9574	2.07	300	2.9346	1.0
2.8555	2.76	400	2.7612	1.0
1.7418	3.45	500	1.5732	0.9857
0.9606	4.14	600	1.0014	0.7052
0.8334	4.83	700	0.7691	0.6161
0.852	5.52	800	0.7169	0.5997
0.5707	6.21	900	0.6821	0.5527
0.4235	6.9	1000	0.6078	0.5140
0.4357	7.59	1100	0.5927	0.4982
0.5004	8.28	1200	0.5814	0.4826
0.3757	8.97	1300	0.5951	0.4643
0.2579	9.66	1400	0.5990	0.4581
0.2087	10.34	1500	0.5864	0.4488
0.3155	11.03	1600	0.5836	0.4464
0.2701	11.72	1700	0.6045	0.4348
0.172	12.41	1800	0.6494	0.4344
0.1529	13.1	1900	0.5915	0.4241
0.2411	13.79	2000	0.6156	0.4246
0.2348	14.48	2100	0.6363	0.4206
0.1429	15.17	2200	0.6394	0.4161
0.1151	15.86	2300	0.6186	0.4167
0.1723	16.55	2400	0.6498	0.4124
0.1997	17.24	2500	0.6541	0.4076
0.1297	17.93	2600	0.6546	0.4117
0.101	18.62	2700	0.6471	0.4075
0.1272	19.31	2800	0.6586	0.4065
0.1901	20.0	2900	0.6549	0.4051