trillsson3-ft-keyword-spotting-14开源音频分类模型

首页

Trillsson3 Ft Keyword Spotting 14

由 vumichien 开发

基于TRillsson3架构的音频分类模型，在superb数据集上微调，用于关键词识别任务，准确率达91.5%。

音频分类

Transformers

#关键词识别 #高精度音频分类 #非语义语音处理

下载量 47

发布时间 : 10/25/2022

模型简介

该模型是在非语义语音表示模型TRillsson3基础上微调的版本，专门用于关键词识别任务。通过superb数据集的训练，在评估集上表现出色。

模型特点

高准确率

在评估集上达到91.5%的准确率，表现优异

基于TRillsson3架构

建立在强大的非语义语音表示模型基础上

高效训练

使用混合精度训练和Adam优化器，训练效率高

模型能力

音频分类

关键词识别

语音特征提取

使用案例

智能语音交互

语音助手唤醒词检测

用于检测设备唤醒词如'Hey Siri'或'OK Google'

高准确率确保唤醒成功率

语音控制命令识别

识别特定语音命令以控制系统操作

语音分析

语音内容分类

对语音内容进行关键词分类和标记

🚀 trillsson3-ft-keyword-spotting-14

本模型是在superb数据集上对 vumichien/nonsemantic-speech-trillsson3 进行微调后的版本。它在评估集上取得了以下结果：

损失值：0.3015
准确率：0.9150

🚀 快速开始

本模型是音频分类领域的有力工具，基于预训练模型微调而来，在superb数据集上展现出良好的性能。

📚 详细文档

训练和评估数据

文档未提供训练和评估数据的详细信息。

模型描述

文档未提供模型的详细描述信息。

预期用途与限制

文档未提供模型的预期用途和限制的详细信息。

🔧 技术细节

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：0.0003
训练批次大小：16
评估批次大小：64
随机种子：0
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
学习率调度器热身比例：0.1
训练轮数：20.0
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	准确率
1.2824	1.0	1597	0.7818	0.6892
0.8003	2.0	3194	0.4443	0.8735
0.7232	3.0	4791	0.3728	0.8833
0.73	4.0	6388	0.3465	0.8973
0.7015	5.0	7985	0.3211	0.9109
0.6981	6.0	9582	0.3200	0.9081
0.6807	7.0	11179	0.3209	0.9059
0.6873	8.0	12776	0.3206	0.9022
0.6416	9.0	14373	0.3124	0.9057
0.6698	10.0	15970	0.3288	0.8950
0.716	11.0	17567	0.3147	0.8998
0.6514	12.0	19164	0.3034	0.9112
0.6513	13.0	20761	0.3091	0.9092
0.652	14.0	22358	0.3056	0.9100
0.7105	15.0	23955	0.3015	0.9150
0.6337	16.0	25552	0.3070	0.9091
0.63	17.0	27149	0.3018	0.9135
0.6672	18.0	28746	0.3084	0.9088
0.6479	19.0	30343	0.3060	0.9101
0.6658	20.0	31940	0.3072	0.9089