wav2vec2-large-xlsr-53-842h-luxembourgish-14h开源模型 - 免费部署实现卢森堡语语音识别

首页

Wav2vec2 Large Xlsr 53 842h Luxembourgish 14h

由 Lemswasabi 开发

基于842小时未标注和14小时标注卢森堡语语音数据微调的wav2vec2.0大模型，支持卢森堡语语音识别

语音识别

Transformers

其他开源协议:MIT #卢森堡语语音识别 #跨语言预训练 #低词错误率

下载量 204

发布时间 : 5/21/2022

模型简介

该模型是基于Facebook的wav2vec2.0 large XLSR-53架构，针对卢森堡语进行优化的自动语音识别(ASR)模型。先在842小时未标注数据上预训练，再在14小时标注数据上微调，并集成了语言模型。

模型特点

跨语言预训练

基于XLSR-53多语言模型，利用跨语言表征提升卢森堡语识别性能

大规模数据训练

使用842小时未标注和14小时标注卢森堡语数据进行训练

集成语言模型

模型结合了语言模型(LM)以提高识别准确率

低词错误率

在测试集上达到10.71%的WER和2.31%的CER

模型能力

卢森堡语语音识别

音频转文本

自动语音转录

使用案例

媒体转录

广播内容转录

转录RTL.lu等卢森堡语广播内容

语音助手

卢森堡语语音交互

为卢森堡语语音助手提供识别能力

🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm

本项目是一个自动语音识别模型，通过对大量卢森堡语语音数据进行微调训练，能够实现对卢森堡语语音的准确识别，为相关语音处理任务提供了有力支持。

🚀 快速开始

此部分文档未提供快速开始的相关内容，你可以根据模型的使用说明进一步探索如何使用该模型。

✨ 主要特性

该模型基于wav2vec 2.0 large XLSR - 53进行微调，先使用从RTL.lu收集的842小时未标注卢森堡语语音数据进行预训练，再在相同领域的14小时标注卢森堡语语音数据上进行微调。
模型在评估指标上表现良好，开发集的词错误率（Dev WER）为11.68，测试集的词错误率（Test WER）为10.71；开发集的字符错误率（Dev CER）为2.64，测试集的字符错误率（Test CER）为2.31。

📚 详细文档

模型描述

我们对wav2vec 2.0 large XLSR - 53检查点进行了微调，使用从RTL.lu收集的842小时未标注卢森堡语语音数据。然后，该模型在来自相同领域的14小时标注卢森堡语语音数据上进行了微调。

预期用途与限制

文档中未提供更多相关信息。

训练和评估数据

文档中未提供更多相关信息。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：7.5e - 05
训练批次大小（train_batch_size）：3
评估批次大小（eval_batch_size）：3
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：12
优化器（optimizer）：Adam，β值为(0.9, 0.999)，ε值为1e - 08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：2000
训练轮数（num_epochs）：50.0
混合精度训练（mixed_precision_training）：Native AMP

框架版本

Transformers 4.20.0.dev0
Pytorch 1.11.0 + cu113
Datasets 2.2.1
Tokenizers 0.12.1

引用

该模型是我们提交给IEEE SLT 2022研讨会的论文IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS的研究成果。

@misc{lb-wav2vec2,
  author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
  keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
  title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
  year = {2022},
  copyright = {2023 IEEE}
}