ASCEND_Dataset_Model开源语音识别模型 - 精准识别语音内容，免费使用！

ASCEND Dataset Model

由 GleamEyeBeast 开发

基于facebook/wav2vec2-xls-r-300m微调的语音识别模型，在ASCEND数据集上训练

下载量 22

发布时间 : 3/14/2022

模型简介

该模型是用于自动语音识别(ASR)任务的微调模型，能够将语音转换为文本

基于大规模预训练模型微调

基于facebook/wav2vec2-xls-r-300m预训练模型进行微调，具备强大的语音特征提取能力

优化后的识别性能

经过20轮训练后，在验证集上达到0.9540的词错误率(WER)

高效训练配置

采用混合精度训练和梯度累积等技术，优化训练效率

语音转文本

自动语音识别

语音内容转录

语音转录

会议记录自动生成

将会议录音自动转换为文字记录

准确率约95.4%

语音指令识别

识别用户语音指令并转换为可执行命令

ASCEND_Dataset_Model 是在未知数据集上对 facebook/wav2vec2-xls-r-300m 进行微调后的模型。该模型在评估集上取得了以下成果：

本模型是基于特定数据集对预训练模型进行微调得到的，你可以根据需求使用该模型进行相关的语音任务。

目前暂无更多信息。

目前暂无更多信息。

目前暂无更多信息。

训练过程中使用了以下超参数：

属性	详情
学习率（learning_rate）	0.0003
训练批次大小（train_batch_size）	8
评估批次大小（eval_batch_size）	1
随机种子（seed）	42
梯度累积步数（gradient_accumulation_steps）	2
总训练批次大小（total_train_batch_size）	16
优化器（optimizer）	Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型（lr_scheduler_type）	线性
学习率调度器热身步数（lr_scheduler_warmup_steps）	500
训练轮数（num_epochs）	20
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）

训练损失	轮数	步数	验证损失	字错率（Wer）	字符错误率（Cer）
16.9063	1.0	687	4.7768	1.0	1.0
5.0252	2.0	1374	4.7004	1.0	1.0
4.9378	3.0	2061	4.6715	1.0	1.0
5.1468	4.0	2748	4.6605	1.0	1.0
4.9353	5.0	3435	4.6470	1.0	1.0
4.913	6.0	4122	4.6177	1.0	1.0
4.8034	7.0	4809	4.7699	1.0	1.0
4.6905	8.0	5496	4.3596	1.0	1.0
4.5251	9.0	6183	4.2670	1.0	1.0
4.4527	10.0	6870	4.2087	1.0	1.0
4.3731	11.0	7557	4.1950	0.9982	0.9997
4.3461	12.0	8244	4.2287	0.9928	0.9988
4.3224	13.0	8931	4.1565	0.9802	0.9971
4.2504	14.0	9618	4.1254	0.9619	0.9937
4.2196	15.0	10305	4.0377	0.9562	0.9913
4.1911	16.0	10992	4.0576	0.9601	0.9887
4.1079	17.0	11679	4.0630	0.9544	0.9857
4.1117	18.0	12366	4.0009	0.9558	0.9880
4.0324	19.0	13053	3.9245	0.9540	0.9877
3.9871	20.0	13740	3.9199	0.9540	0.9868