wav2vec2-2-bart-base开源语音识别模型 - 免费部署精准识别语音内容

Wav2vec2 2 Bart Base

由 patrickvonplaten 开发

基于wav2vec2-base和bart-base在LibriSpeech ASR clean数据集上微调的语音识别模型

下载量 493

发布时间 : 3/2/2022

模型简介

该模型结合了wav2vec2的语音特征提取能力和BART的序列到序列转换能力，专注于英语语音识别任务

混合架构

结合了wav2vec2的语音特征提取和BART的序列转换能力

高效微调

在LibriSpeech ASR clean数据集上进行了优化

多GPU训练

支持分布式训练，提高训练效率

英语语音识别

音频转文本

序列到序列转换

语音转录

会议记录

将会议录音转换为文字记录

播客转录

将播客音频内容转换为文本

辅助技术

实时字幕生成

为视频或直播生成实时字幕

属性	详情
学习率（learning_rate）	0.0003
训练批次大小（train_batch_size）	8
评估批次大小（eval_batch_size）	8
随机种子（seed）	42
分布式类型（distributed_type）	多GPU
设备数量（num_devices）	8
总训练批次大小（total_train_batch_size）	64
总评估批次大小（total_eval_batch_size）	64
优化器（optimizer）	Adam（β1=0.9，β2=0.999，ε=1e - 08）
学习率调度器类型（lr_scheduler_type）	线性
学习率调度器热身步数（lr_scheduler_warmup_steps）	400
训练轮数（num_epochs）	5
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）