voice - clone - large - finetune - final开源语音克隆模型，精准用于语音识别任务！

Voice Clone Large Finetune Final

由 neuronbit 开发

该模型是基于openai/whisper-large-v3微调的语音克隆模型，主要用于语音识别任务，在评估集上词错误率为15.3572。

下载量 37

发布时间 : 11/27/2024

模型简介

基于Whisper-large-v3微调的语音识别模型，专注于提高特定场景下的语音识别准确率。

低词错误率

在评估集上达到15.3572的词错误率，表现优于许多通用语音识别模型

精细调优

基于Whisper-large-v3进行深度微调，适应特定语音识别场景

高效训练

采用混合精度训练和梯度累积等技术，优化训练效率

语音识别

语音转文字

音频内容分析

语音转录

会议记录

自动将会议录音转换为文字记录

词错误率15.3572

语音笔记

将语音备忘录转换为可搜索的文本

语音分析

语音内容分析

分析音频内容并提取关键信息

训练损失	轮数	步数	验证损失	字错率（Wer）
0.1607	0.8460	250	0.5163	25.9413
0.0598	1.6920	500	0.4849	24.8444
0.0257	2.5381	750	0.4450	30.4180
0.0141	3.3841	1000	0.4369	19.3003
0.0029	4.2301	1250	0.4267	16.0095
0.0015	5.0761	1500	0.4209	18.4109
0.0063	5.9222	1750	0.4259	19.3300
0.0016	6.7682	2000	0.4341	17.7587
0.0009	7.6142	2250	0.4121	17.0471
0.0013	8.4602	2500	0.4199	16.3653
0.0009	9.3063	2750	0.4233	16.5135
0.001	10.1523	3000	0.4237	16.0688
0.0019	10.9983	3250	0.4230	16.4542
0.0014	11.8443	3500	0.4292	15.8316
0.0007	12.6904	3750	0.4291	15.8316
0.0005	13.5364	4000	0.4321	15.3869
0.0009	14.3824	4250	0.4334	15.2980
0.001	15.2284	4500	0.4344	15.2980
0.0	16.0745	4750	0.4372	15.3572
0.0	16.9205	5000	0.4377	15.3572

属性	详情
库名称	transformers
许可证	Apache-2.0
基础模型	openai/whisper-large-v3
标签	generated_from_trainer
评估指标	wer
模型名称	voice-clone-large-finetune-final