wav2vec2-large-lv60_phoneme-timit_english_timit-4k开源模型

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k

由 excalibur12 开发

基于facebook/wav2vec2-large-lv60微调的英语音素识别模型，在TIMIT数据集上取得10.53%的音素错误率

下载量 306

发布时间 : 6/17/2024

模型简介

该模型是针对英语音素识别任务优化的语音处理模型，特别适用于音素级别的语音分析

低音素错误率

在TIMIT测试集上达到10.53%的音素错误率，表现优异

精细音素分析

提供元音、塞音、擦音等多种音素类别的详细错误分析

基于wav2vec2架构

利用facebook先进的wav2vec2-large-lv60模型作为基础

英语音素识别

语音特征提取

音素级错误分析

语音研究

音素识别研究

用于语言学研究和语音识别系统开发

10.53%的音素错误率

教育技术

发音评估

可用于语言学习应用的发音准确性评估

训练损失	轮数	步数	验证损失	音素错误率
7.9352	1.04	300	3.7710	0.9617
2.7874	2.08	600	0.9080	0.1929
0.8205	3.11	900	0.4670	0.1492
0.5504	4.15	1200	0.4025	0.1408
0.4632	5.19	1500	0.3696	0.1374
0.4148	6.23	1800	0.3519	0.1343
0.3873	7.27	2100	0.3419	0.1329
0.3695	8.3	2400	0.3368	0.1317
0.3531	9.34	2700	0.3406	0.1320
0.3507	10.38	3000	0.3354	0.1315