unispeech - sat - base - timit - ft开源语音识别模型，精准实现自动语音识别

首页

Unispeech Sat Base Timit Ft

由 patrickvonplaten 开发

该模型是基于microsoft/unispeech-sat-base在TIMIT_ASR数据集上微调的自动语音识别模型，在评估集上取得了41.01%的词错误率。

语音识别

Transformers

#英语语音识别 #TIMIT数据集优化 #低词错误率

下载量 15

发布时间 : 3/2/2022

模型简介

UniSpeech-SAT Base TIMIT微调版是一个专门针对英语语音识别任务优化的模型，通过在大规模语音数据上进行预训练并在TIMIT数据集上微调，实现了较高的语音识别准确率。

模型特点

TIMIT数据集微调

专门针对TIMIT ASR数据集进行优化，提高了在该数据集上的识别准确率

基于UniSpeech-SAT架构

采用微软UniSpeech-SAT基础架构，具备强大的语音特征提取能力

低词错误率

在评估集上实现了41.01%的词错误率，表现优于许多同类模型

模型能力

英语语音识别

连续语音转文本

音素级别识别

使用案例

语音转写

英语语音转录

将英语口语转换为书面文本

词错误率41.01%

语音学研究

音素分析

用于语音学研究和发音分析

🚀 unispeech-sat-base-timit-ft

本模型是 microsoft/unispeech-sat-base 在 TIMIT_ASR - NA 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.6712
字错率（Wer）：0.4101

🚀 快速开始

此部分暂未提供相关内容。

✨ 主要特性

此部分暂未提供相关内容。

📚 详细文档

模型描述

更多信息待补充。

预期用途和限制

更多信息待补充。

训练和评估数据

更多信息待补充。

🔧 技术细节

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：0.0001
训练批次大小：32
评估批次大小：1
随机种子：42
优化器：Adam，β 值为 (0.9, 0.999)，ε 值为 1e-08
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：20.0
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
3.2582	0.69	100	3.1651	1.0
2.9542	1.38	200	2.9567	1.0
2.9656	2.07	300	2.9195	1.0
2.8946	2.76	400	2.8641	1.0
1.9305	3.45	500	1.7680	1.0029
1.0134	4.14	600	1.0184	0.6942
0.8355	4.83	700	0.7769	0.6080
0.8724	5.52	800	0.7182	0.6035
0.5619	6.21	900	0.6823	0.5406
0.4247	6.9	1000	0.6279	0.5237
0.4257	7.59	1100	0.6056	0.5000
0.5007	8.28	1200	0.5870	0.4918
0.3854	8.97	1300	0.6200	0.4804
0.264	9.66	1400	0.6030	0.4600
0.1989	10.34	1500	0.6049	0.4588
0.3196	11.03	1600	0.5946	0.4599
0.2622	11.72	1700	0.6282	0.4422
0.1697	12.41	1800	0.6559	0.4413
0.1464	13.1	1900	0.6349	0.4328
0.2277	13.79	2000	0.6133	0.4284
0.221	14.48	2100	0.6617	0.4219
0.1391	15.17	2200	0.6705	0.4235
0.112	15.86	2300	0.6207	0.4218
0.1717	16.55	2400	0.6749	0.4184
0.2081	17.24	2500	0.6756	0.4169
0.1244	17.93	2600	0.6750	0.4181
0.0978	18.62	2700	0.6500	0.4115
0.128	19.31	2800	0.6750	0.4106
0.1791	20.0	2900	0.6712	0.4101