wav2vec2-xls-r-tf-left-right-trainer开源语音识别模型

Wav2vec2 Xls R Tf Left Right Trainer

由 hrdipto 开发

基于facebook/wav2vec2-xls-r-300m微调的语音识别模型，支持左右声道处理

下载量 30

发布时间 : 3/2/2022

模型简介

该模型是基于wav2vec2-xls-r-300m架构微调的语音识别模型，专门优化了左右声道音频处理能力。

左右声道处理优化

专门针对左右声道音频输入进行了优化处理

高效微调

基于预训练的大规模wav2vec2-xls-r模型进行高效微调

低词错误率

在评估集上取得了0.0037的低词错误率

语音识别

左右声道音频处理

高精度转录

语音转录

会议录音转录

将会议录音转换为文字记录

高准确率的转录结果

音频内容分析

分析音频内容并提取关键信息

辅助技术

实时字幕生成

为视频或直播生成实时字幕

属性	详情
学习率（learning_rate）	0.0001
训练批次大小（train_batch_size）	32
评估批次大小（eval_batch_size）	8
随机种子（seed）	42
优化器（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型（lr_scheduler_type）	线性（linear）
学习率调度器热身步数（lr_scheduler_warmup_steps）	1000
训练轮数（num_epochs）	30
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）