Galician_xlsr开源自动语音识别模型 - 精准识别加利西亚语语音内容

首页

Galician Xlsr

由 Akashpb13 开发

该模型是基于facebook/wav2vec2-xls-r-300m在加利西亚语数据集上微调的自动语音识别模型，在Common Voice 8.0测试集上取得了11.31%的WER。

语音识别

Transformers

其他开源协议:Apache-2.0 #加利西亚语语音识别 #低WER #多方言支持

下载量 110

发布时间 : 3/2/2022

模型简介

这是一个用于加利西亚语的自动语音识别模型，基于XLS-R架构微调而成，适用于语音转文本任务。

模型特点

多数据集训练

模型使用了Common Voice加利西亚语数据集中的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv进行训练

高质量数据筛选

仅使用支持票数高于反对票数的数据点，并在合并数据集后去除重复项

优化的训练过程

采用cosine_with_restarts学习率调度器，并进行了100轮训练

模型能力

加利西亚语语音识别

语音转文本

支持多种语音输入格式

使用案例

语音转录

加利西亚语语音转录

将加利西亚语语音转换为文本

在Common Voice 8.0测试集上WER为11.31%

语音助手

加利西亚语语音助手

用于加利西亚语语音交互系统

🚀 Akashpb13/Galician_xlsr

本模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu数据集对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在评估集（训练数据集的10%，与无效数据、报告数据、其他数据和开发数据集合并）上取得了以下结果：

损失值：0.137096
字错率（WER）：0.196230

✨ 主要特性

基于facebook/wav2vec2 - xls - r - 300m模型微调，适用于加利西亚语的自动语音识别任务。
在多个数据集上进行了评估，具有一定的准确性和鲁棒性。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型描述

对"facebook/wav2vec2 - xls - r - 300m"进行了微调。

预期用途与限制

更多信息待补充。

训练和评估数据

训练数据：Common voice加利西亚语的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv。仅考虑那些赞成票多于反对票的点，并且在合并Common voice 7.0中给出的所有数据集后去除了重复项。

训练过程

为创建训练数据集，将所有可能的数据集进行了拼接，并采用了90 - 10的分割方式。

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：0.000096
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：16
随机种子（seed）：13
梯度累积步数（gradient_accumulation_steps）：2
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：100
混合精度训练（mixed_precision_training）：Native AMP

训练结果

步数	训练损失	验证损失	字错率（Wer）
500	5.038100	3.035432	1.000000
1000	2.180000	0.406300	0.557964
1500	0.331700	0.153797	0.262394
2000	0.171600	0.145268	0.235627
2500	0.125900	0.136622	0.228087
3000	0.105400	0.131650	0.224128
3500	0.087600	0.141032	0.217531
4000	0.078300	0.143675	0.214515
4500	0.070000	0.144607	0.208106
5000	0.061500	0.135259	0.202828
5500	0.055600	0.130638	0.203959
6000	0.050500	0.137416	0.202451
6500	0.046600	0.140379	0.200000
7000	0.040800	0.140179	0.200377
7500	0.041000	0.138089	0.196795
8000	0.038400	0.136927	0.197172

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.3
Tokenizers 0.10.3

评估命令

在mozilla - foundation/common_voice_8_0数据集的test分割上进行评估：

python eval.py --model_id Akashpb13/Galician_xlsr --dataset mozilla - foundation/common_voice_8_0 --config gl --split test

🔧 技术细节

模型指标

任务	数据集	指标	值
自动语音识别	Common Voice 8 (kmr)	测试字错率（Test WER）	0.11308483789555426
自动语音识别	Common Voice 8 (kmr)	测试字符错误率（Test CER）	0.023982371794871796
自动语音识别	Robust Speech Event - Dev Data (gl)	测试字错率（Test WER）	0.11308483789555426
自动语音识别	Robust Speech Event - Dev Data (gl)	测试字符错误率（Test CER）	0.023982371794871796
自动语音识别	Common Voice 8.0 (gl)	测试字错率（Test WER）	11.31
自动语音识别	Robust Speech Event - Test Data (gl)	测试字错率（Test WER）	39.05