wavLM-VLSP-vi开源越南语自动语音识别模型 - 免费实现精准语音转文字

Wavlm VLSP Vi

由 phongdtd 开发

基于microsoft/wavlm-base-plus在PHONGDTD/VINDATAVLSP - NA数据集上微调的越南语自动语音识别模型

下载量 21

发布时间 : 3/2/2022

模型简介

该模型是针对越南语的自动语音识别(ASR)任务进行优化的模型，基于WavLM架构微调而成

越南语优化

专门针对越南语语音识别任务进行微调

基于WavLM架构

使用微软WavLM-base-plus作为基础模型，具有强大的语音表示能力

多GPU训练

采用分布式多GPU训练方式，提高训练效率

越南语语音转文本

连续语音识别

语音转录

越南语会议记录

将越南语会议录音转换为文字记录

语音助手

为越南语语音助手提供语音识别能力

本模型是 microsoft/wavlm-base-plus 在 PHONGDTD/VINDATAVLSP - NA 数据集上的微调版本。它在评估集上取得了以下结果：

该模型基于预训练模型 microsoft/wavlm-base-plus 在特定数据集上微调而来，可用于自动语音识别相关任务。

此模型是在 microsoft/wavlm-base-plus 基础上，针对 PHONGDTD/VINDATAVLSP - NA 数据集进行微调得到的。

文档暂未提供该模型的预期用途与限制相关信息。

文档暂未提供训练和评估数据的相关信息。

训练过程中使用了以下超参数：

属性	详情
学习率（learning_rate）	0.0003
训练批次大小（train_batch_size）	4
评估批次大小（eval_batch_size）	8
随机种子（seed）	42
分布式类型（distributed_type）	多GPU（multi - GPU）
设备数量（num_devices）	2
总训练批次大小（total_train_batch_size）	8
总评估批次大小（total_eval_batch_size）	16
优化器（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型（lr_scheduler_type）	线性（linear）
学习率调度器预热步数（lr_scheduler_warmup_steps）	500
训练轮数（num_epochs）	50.0
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	验证损失（Validation Loss）	词错误率（Wer）	字符错误率（Cer）
3.4482	9.41	40000	3.4480	0.9999	0.9974
3.4619	18.81	80000	3.4514	0.9999	0.9974
3.7961	28.22	120000	3.8732	0.9999	0.9974
24.3843	37.62	160000	22.5457	0.9999	0.9973
48.5691	47.03	200000	45.8892	0.9999	0.9973