wav2vec2开源自动语音识别模型 - 基于卢语语音数据微调精准识别

首页

Wav2vec2 Large Xlsr 53 842h Luxembourgish 4h

由 Lemswasabi 开发

基于842小时未标注和4小时标注卢森堡语音数据微调的自动语音识别模型

语音识别

Transformers

其他开源协议:MIT #卢森堡语语音识别 #低资源语言优化 #跨语言预训练

下载量 16

发布时间 : 3/2/2022

模型简介

该模型是基于wav2vec 2.0 large XLSR-53架构的卢森堡语语音识别模型，先在842小时未标注数据上预训练，再在4小时标注数据上微调。

模型特点

跨语言语音表征

利用XLSR-53的多语言预训练模型作为基础，有效处理资源匮乏的卢森堡语

高效数据利用

仅使用4小时标注数据就实现了较好的识别效果

双阶段训练

先在大规模未标注数据上预训练，再在小规模标注数据上微调

模型能力

卢森堡语语音识别

语音转文本

使用案例

语音转录

卢森堡语媒体内容转录

将卢森堡语的广播、电视节目自动转录为文本

词错误率18.77%

语音助手

卢森堡语语音交互

为卢森堡地区开发本地化语音助手

🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-4h

本项目是一个自动语音识别模型，通过对大量卢森堡语语音数据进行微调训练，可用于卢森堡语的语音识别任务，为相关领域提供了有效的技术支持。

🚀 快速开始

此部分暂未提供相关内容，若有后续补充，可进一步完善。

✨ 主要特性

本模型基于wav2vec 2.0 large XLSR - 53进行微调，先使用从 RTL.lu 收集的842小时未标记卢森堡语语音数据进行预训练，再在4小时标记的同领域卢森堡语语音数据上进行微调。
模型在评估指标上表现良好，开发集WER（词错误率）为19.44，测试集WER为18.77；开发集CER（字符错误率）为7.16，测试集CER为6.43。

📚 详细文档

模型描述

我们对wav2vec 2.0 large XLSR - 53检查点进行了微调，使用从 RTL.lu 收集的842小时未标记卢森堡语语音数据进行预训练，然后在4小时标记的同领域卢森堡语语音数据上进行微调。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：7.5e - 05
训练批次大小（train_batch_size）：3
评估批次大小（eval_batch_size）：3
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：12
优化器（optimizer）：Adam，β=(0.9, 0.999)，ε = 1e - 08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：2000
训练轮数（num_epochs）：50.0
混合精度训练（mixed_precision_training）：Native AMP

框架版本

Transformers 4.20.0.dev0
Pytorch 1.11.0 + cu113
Datasets 2.2.1
Tokenizers 0.12.1

引用信息

本模型是论文 IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS 的研究成果，该论文已提交至 IEEE SLT 2022 workshop。

@misc{lb-wav2vec2,
  author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
  keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
  title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
  year = {2022},
  copyright = {2023 IEEE}
}

📄 许可证

本项目采用MIT许可证。

📦 模型信息表格

属性	详情
模型类型	自动语音识别（Automatic Speech Recognition）
训练数据	先使用从 RTL.lu 收集的842小时未标记卢森堡语语音数据进行预训练，再在4小时标记的同领域卢森堡语语音数据上进行微调
评估指标	开发集WER：19.44；测试集WER：18.77；开发集CER：7.16；测试集CER：6.43
训练超参数	学习率7.5e - 05，训练批次大小3，评估批次大小3等
框架版本	Transformers 4.20.0.dev0，Pytorch 1.11.0 + cu113等