wav2vec2-xls-r-phoneme-300m-tr开源模型 - 用于土耳其语自动语音识别

Wav2vec2 Xls R Phoneme 300m Tr

由 patrickvonplaten 开发

基于Facebook的wav2vec2-xls-r-300m模型在土耳其语Common Voice数据集上微调的自动语音识别模型

下载量 16

发布时间 : 3/2/2022

模型简介

该模型是针对土耳其语优化的自动语音识别(ASR)模型，专注于音素级别的识别任务。在Common Voice土耳其语评估集上取得了16.64%的音素错误率(PER)。

音素级别识别

专注于音素级别的语音识别，适合需要精细语音分析的应用场景

土耳其语优化

专门针对土耳其语进行微调，在Common Voice土耳其语数据集上表现良好

基于XLS-R架构

采用Facebook强大的wav2vec2-xls-r-300m架构作为基础模型

土耳其语语音识别

音素级别分析

语音转文本

语音转录

土耳其语语音转文字

将土耳其语语音内容转换为文本

音素错误率16.64%

语音分析

音素研究

用于语言学研究和土耳其语音素分析

训练损失	轮数	步数	验证损失	音素错误率（PER）
13.6687	0.92	100	12.4567	1.0
3.4219	1.83	200	3.4704	1.0
3.1846	2.75	300	3.2281	0.9935
2.0076	3.67	400	1.7415	0.5222
1.0244	4.59	500	1.0290	0.3323
0.7095	5.5	600	0.8424	0.2859
0.619	6.42	700	0.7389	0.2232
0.3541	7.34	800	0.7049	0.2043
0.2946	8.26	900	0.7065	0.2153
0.2868	9.17	1000	0.6840	0.2115
0.2245	10.09	1100	0.6714	0.1952
0.1394	11.01	1200	0.6864	0.1954
0.1288	11.93	1300	0.6696	0.2017
0.1568	12.84	1400	0.6468	0.1843
0.1269	13.76	1500	0.6736	0.1965
0.1101	14.68	1600	0.6689	0.1915
0.1388	15.6	1700	0.6690	0.1782
0.0739	16.51	1800	0.6364	0.1734
0.0897	17.43	1900	0.6480	0.1748
0.0795	18.35	2000	0.6356	0.1695
0.0823	19.27	2100	0.6382	0.1685