wav2vec2-large-lv60_phoneme-timit_english_timit-4k_002开源模型

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k 002

由 excalibur12 开发

基于facebook/wav2vec2-large-lv60在TIMIT数据集上微调的英语音素识别模型，音素错误率10.53%

下载量 103

发布时间 : 6/17/2024

模型简介

该模型专门用于英语音素识别任务，基于TIMIT音素集进行训练，适用于语音处理和分析应用。

高精度音素识别

在TIMIT测试集上达到10.53%的音素错误率，表现优异。

全面音素覆盖

支持完整TIMIT音素集，包括元音、塞音、塞擦音、擦音、鼻音和半元音/滑音等各类音素。

优化训练流程

采用线性学习率调度和原生AMP混合精度训练，训练效率高。

英语音素识别

语音特征分析

音素分类

语音处理

语音识别预处理

作为语音识别系统的前端处理模块，提供音素级分析结果。

音素错误率10.53%

发音评估

用于语言学习应用中的发音准确度评估。

学术研究

语音学分析

支持语音学研究中各类音素的识别和分类。

训练损失	轮数	步数	验证损失	音素错误率
7.9352	1.04	300	3.7710	0.9617
2.7874	2.08	600	0.9080	0.1929
0.8205	3.11	900	0.4670	0.1492
0.5504	4.15	1200	0.4025	0.1408
0.4632	5.19	1500	0.3696	0.1374
0.4148	6.23	1800	0.3519	0.1343
0.3873	7.27	2100	0.3419	0.1329
0.3695	8.3	2400	0.3368	0.1317
0.3531	9.34	2700	0.3406	0.1320
0.3507	10.38	3000	0.3354	0.1315