wav2vec2-xls-r-1b-ca-lm开源语音识别模型 - 精准识别加泰罗尼亚语语音

首页

Wav2vec2 Xls R 1b Ca Lm

由 PereLluis13 开发

这是一个基于facebook/wav2vec2-xls-r-300m微调的加泰罗尼亚语语音识别模型，在多个加泰罗尼亚语数据集上训练。

语音识别

Transformers

其他开源协议:Apache-2.0 #加泰罗尼亚语语音识别 #多数据集微调 #低CER表现

下载量 3,758

发布时间 : 3/2/2022

模型简介

该模型是针对加泰罗尼亚语的自动语音识别(ASR)模型，在Common Voice 8.0、tv3_parla和parlament_parla数据集上进行了微调。

模型特点

多数据集训练

在Common Voice 8.0、tv3_parla和parlament_parla三个加泰罗尼亚语数据集上训练，提高了模型鲁棒性

数据预处理优化

移除了加泰罗尼亚字母表中不存在的字符，并将数字转换为文字形式，提高了识别准确率

高性能表现

在多个测试集上表现出色，如Common Voice 8.0测试集WER仅6.07%

模型能力

加泰罗尼亚语语音识别

高准确率转录

多领域语音处理

使用案例

媒体转录

电视节目字幕生成

为加泰罗尼亚语电视节目自动生成字幕

在tv3_parla测试集上WER为11.21%

会议记录

议会会议记录

自动转录加泰罗尼亚议会会议内容

在parlament_parla测试集上WER为5.14%

语音助手

加泰罗尼亚语语音输入

为加泰罗尼亚语语音助手提供语音识别能力

在Common Voice测试集上WER为6.07%

🚀 wav2vec2-xls-r-1b-ca-lm

本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - CA、tv3_parla 和 parlament_parla 数据集上的微调版本，可用于自动语音识别任务。

✨ 主要特性

基于预训练模型 facebook/wav2vec2-xls-r-300m 进行微调，在多个加泰罗尼亚语语音数据集上进行训练和评估。
对训练数据进行预处理，去除非加泰罗尼亚字母的字符，并对数字进行语音化处理。
提供了详细的训练超参数和框架版本信息。

📦 安装指南

文档未提供具体安装步骤，故跳过该章节。

💻 使用示例

文档未提供代码示例，故跳过该章节。

📚 详细文档

模型描述

请查看原始的 facebook/wav2vec2-xls-r-1b 模型卡片。此模型仅是该模型的微调版本。

预期用途和局限性

与任何基于众包数据训练的模型一样，该模型可能会体现出用于训练的数据和模型的偏差与特性。此外，由于这是一个语音识别模型，对于加泰罗尼亚语中一些资源较少的方言，其性能可能会有所下降。

训练和评估数据

训练过程

对数据进行预处理，去除非加泰罗尼亚字母的字符。此外，使用 @ccoreilly 提供的代码对数字进行语音化处理，该代码可在 text/ 文件夹中找到，也可点击此处查看。

训练结果

可查看 Tensorboard 标签页，以查看训练过程中的训练曲线和评估结果。该模型在训练过程中使用的每个数据集的测试分割上进行了评估。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：2e-05
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：8
总训练批次大小（total_train_batch_size）：64
优化器（optimizer）：Adam，β1=0.9，β2=0.999，ε=1e-08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：2000
训练轮数（num_epochs）：10.0
混合精度训练（mixed_precision_training）：Native AMP

框架版本

Transformers：4.17.0.dev0
Pytorch：1.10.2+cu102
Datasets：1.18.3
Tokenizers：0.11.0

📄 许可证

本模型使用 Apache-2.0 许可证。

🔧 技术细节

模型指标

数据集	测试 WER	测试 CER
mozilla-foundation/common_voice_8_0 ca	6.0722669958130644	1.9180697705166526
projecte-aina/parlament_parla ca	5.139820371024042	2.0163620128164722
collectivat/tv3_parla ca	11.207991684952073	7.32119307305963
Robust Speech Event - Catalan Dev Data	22.870153690468661	13.59039190897598
Robust Speech Event - Test Data	15.41	未提及