wav2vec2-large-xls-r-300m-assamese开源模型 - 免费实现阿萨姆语自动语音识别

首页

Wav2vec2 Large Xls R 300m Assamese

由 infinitejoy 开发

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice_7_0数据集上微调的版本，用于阿萨姆语自动语音识别任务。

语音识别

Transformers

其他开源协议:Apache-2.0 #阿萨姆语语音识别 #XLS-R微调 #低资源语言处理

下载量 13

发布时间 : 3/2/2022

模型简介

这是一个针对阿萨姆语优化的自动语音识别模型，基于XLS-R-300M架构微调，适用于阿萨姆语的语音转文字任务。

模型特点

阿萨姆语优化

专门针对阿萨姆语进行微调，提高了该语言的识别准确率

基于XLS-R-300M

使用强大的XLS-R-300M架构作为基础模型

Common Voice数据集训练

在mozilla-foundation/common_voice_7_0数据集上进行训练

模型能力

阿萨姆语语音识别

音频转文字

使用案例

语音转录

阿萨姆语语音转文字

将阿萨姆语语音内容转换为文字

WER: 72.64, CER: 27.35

🚀 wav2vec2-large-xls-r-300m-assamese

该模型是在common_voice_7_0数据集上对facebook/wav2vec2-xls-r-300m进行微调后的版本。它在评估集上取得了以下结果：

词错误率（WER）：0.7954545454545454
字符错误率（CER）：0.32341269841269843

🚀 快速开始

本模型可用于阿萨姆语的自动语音识别任务，基于预训练模型在特定数据集上微调得到，能有效处理阿萨姆语语音数据。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

要计算评估参数，可以运行以下命令：

cd wav2vec2-large-xls-r-300m-assamese; python eval.py --model_id ./ --dataset mozilla-foundation/common_voice_7_0 --config as --split test --log_outputs

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：3e - 4
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：8
随机种子（seed）：未给出
梯度累积步数（gradient_accumulation_steps）：2
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β=(0.9, 0.999)，ε = 1e - 08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：400
混合精度训练（mixed_precision_training）：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
1.584065	NA	400	1.584065	0.915512
1.658865	Na	800	1.658865	0.805096
1.882352	NA	1200	1.882352	0.820742
1.881240	NA	1600	1.881240	0.810907
2.159748	NA	2000	2.159748	0.804202
1.992871	NA	2400	1.992871	0.803308
2.201436	NA	2800	2.201436	0.802861
2.165218	NA	3200	2.165218	0.793920
2.253643	NA	3600	2.253643	0.796603
2.265880	NA	4000	2.265880	0.790344
2.293935	NA	4400	2.293935	0.797050
2.288851	NA	4800	2.288851	0.784086