wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm开源模型

首页

Wav2vec2 Large Xlsr 53 842h Luxembourgish 14h With Lm

由 Lemswasabi 开发

基于wav2vec 2.0大型XLSR-53检查点微调的卢森堡语语音识别模型，使用842小时未标注和14小时标注数据训练，并集成5-gram语言模型

语音识别

Transformers

其他开源协议:MIT #卢森堡语语音识别 #低词错误率(WER)#跨语言预训练

下载量 170

发布时间 : 5/24/2022

模型简介

该模型是一个针对卢森堡语的自动语音识别系统，通过大规模未标注数据和少量标注数据训练，结合语言模型提升识别准确率

模型特点

跨语言预训练

基于XLSR-53多语言模型进行微调，充分利用跨语言语音表征

语言模型集成

使用5-gram语言模型对输出进行重新评分，提高识别准确率

高效数据利用

结合842小时未标注数据和14小时标注数据进行训练

模型能力

卢森堡语语音识别

音频转文本

语音转录

使用案例

媒体转录

广播内容转录

转录RTL.lu等卢森堡语广播内容

词错误率9.3%-9.5%

语音助手

卢森堡语语音交互

为卢森堡语用户提供语音控制功能

🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm

本项目是一个自动语音识别模型，通过对大量卢森堡语语音数据进行微调训练，并结合语言模型进行输出转录重评分，在卢森堡语语音识别任务中取得了较好的效果。

🚀 快速开始

本模型为自动语音识别模型，可用于卢森堡语的语音识别任务。

✨ 主要特性

基于wav2vec 2.0 large XLSR - 53进行微调，先使用842小时未标注的卢森堡语语音数据，再使用14小时标注的同领域卢森堡语语音数据进行训练。
利用5 - gram语言模型对输出转录进行重评分，提升识别效果。

📚 详细文档

模型描述

我们对wav2vec 2.0 large XLSR - 53检查点进行了微调，使用了从RTL.lu收集的842小时未标注的卢森堡语语音数据。然后在来自同一领域的14小时标注的卢森堡语语音数据上对模型进行了微调。此外，我们使用在同一领域的文本语料库上训练的5 - gram语言模型对输出转录进行重评分。

预期用途与局限性

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：7.5e - 05
训练批次大小：3
评估批次大小：3
随机种子：42
梯度累积步数：4
总训练批次大小：12
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：2000
训练轮数：50.0
混合精度训练：Native AMP

框架版本

Transformers 4.20.0.dev0
Pytorch 1.11.0 + cu113
Datasets 2.2.1
Tokenizers 0.12.1

引用

本模型是我们提交给IEEE SLT 2022研讨会的论文IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS的成果。

@misc{lb-wav2vec2,
  author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
  keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
  title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
  year = {2022},
  copyright = {2023 IEEE}
}

📄 许可证

本项目采用MIT许可证。

📦 模型信息

属性	详情
模型类型	自动语音识别
评估指标	WER、CER
模型名称	Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm
开发集WER	9.50
测试集WER	9.30
开发集CER	2.17
测试集CER	2.08