sat-base开源自动语音识别模型 - 免费部署精准识别语音内容

首页

Sat Base

由 patrickvonplaten 开发

基于microsoft/unispeech-sat-base在TIMIT_ASR数据集上微调的自动语音识别模型

语音识别

Transformers

#语音识别微调 #TIMIT数据集 #UniSpeech-SAT架构

下载量 22

发布时间 : 3/2/2022

模型简介

该模型是专门针对英语语音识别任务优化的自动语音识别(ASR)模型，在TIMIT_ASR数据集上表现出色

模型特点

高精度语音识别

在TIMIT_ASR数据集上达到0.5374的词错误率(WER)

基于UniSpeech-SAT架构

采用先进的语音自监督学习架构，具有强大的语音特征提取能力

端到端训练

直接从语音到文本的端到端训练方式，简化了语音识别流程

模型能力

英语语音识别

语音转文本

连续语音识别

使用案例

语音转录

会议记录自动转录

将英语会议录音自动转换为文字记录

准确率约46.26%(WER=0.5374)

语音指令识别

识别英语语音命令和指令

教育研究

语音学研究工具

用于语音学研究和发音分析

🚀 sat-base

sat-base 模型是 microsoft/unispeech-sat-base 在 TIMIT_ASR - NA 数据集上的微调版本。该模型在评估集上取得了以下成绩：

损失值（Loss）：0.7014
字错率（Wer）：0.5374

📚 详细文档

训练和评估数据

更多信息待补充。

模型描述

更多信息待补充。

预期用途和限制

更多信息待补充。

🔧 技术细节

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：3e - 05
训练批次大小（train_batch_size）：32
评估批次大小（eval_batch_size）：1
随机种子（seed）：42
优化器（optimizer）：Adam，β值为(0.9, 0.999)，ε值为 1e - 08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：1000
训练轮数（num_epochs）：20.0
混合精度训练（mixed_precision_training）：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率
6.9958	0.69	100	6.7171	1.0
3.0453	1.38	200	3.0374	1.0
2.9989	2.07	300	2.9807	1.0
2.969	2.76	400	2.9579	1.0
2.903	3.45	500	2.9072	1.0
2.8565	4.14	600	2.8804	1.0
2.8195	4.83	700	2.7916	1.0
2.3134	5.52	800	2.1456	1.0004
1.5475	6.21	900	1.4663	0.9549
1.1295	6.9	1000	1.1140	0.7227
1.0181	7.59	1100	0.9258	0.6497
1.0252	8.28	1200	0.8430	0.6255
0.835	8.97	1300	0.8063	0.6032
0.662	9.66	1400	0.7595	0.5931
0.5558	10.34	1500	0.7322	0.5819
0.7596	11.03	1600	0.7120	0.5708
0.6169	11.72	1700	0.7073	0.5606
0.4565	12.41	1800	0.7124	0.5586
0.4554	13.1	1900	0.6880	0.5501
0.6216	13.79	2000	0.6783	0.5494
0.5393	14.48	2100	0.7067	0.5499
0.4095	15.17	2200	0.7014	0.5438
0.3551	15.86	2300	0.7000	0.5426
0.5112	16.55	2400	0.6866	0.5426
0.5139	17.24	2500	0.7134	0.5446
0.3638	17.93	2600	0.7130	0.5434
0.3327	18.62	2700	0.6980	0.5377
0.4385	19.31	2800	0.7017	0.5390
0.4986	20.0	2900	0.7014	0.5374