wav2vec2-large-xls-r-300m-hsb-v1开源语音识别模型

首页

Wav2vec2 Large Xls R 300m Hsb V1

由 DrishtiSharma 开发

这是一个基于facebook/wav2vec2-xls-r-300m在上索布语(HSB)数据集上微调的自动语音识别模型，在Common Voice 8测试集上取得了0.4393的词错误率(WER)。

语音识别

Transformers

其他开源协议:Apache-2.0 #上索布语语音识别 #低资源语言ASR #WER优化

下载量 20

发布时间 : 3/2/2022

模型简介

该模型专门用于上索布语的自动语音识别任务，基于wav2vec2架构，在Mozilla Common Voice 8数据集上训练。

模型特点

低资源语言支持

专门为上索布语这种低资源语言优化的语音识别模型

基于XLS-R架构

使用Facebook的wav2vec2-XLS-R-300M作为基础模型，具有强大的跨语言表示能力

在Common Voice上微调

在Mozilla Common Voice 8的上索布语数据集上进行微调，适应特定语言特征

模型能力

上索布语语音识别

语音转文本

使用案例

语音转录

上索布语语音转录

将上索布语的语音内容转换为文本

在Common Voice测试集上WER为0.4393

语言保护

少数民族语言数字化

帮助保存和数字化上索布语等少数民族语言

🚀 wav2vec2-large-xls-r-300m-hsb-v1

本模型是基于 facebook/wav2vec2-xls-r-300m 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HSB 数据集上进行微调的版本。它能够有效解决自动语音识别任务中的相关问题，在特定数据集上展现出了良好的性能，为上索布语的语音识别提供了有力支持。

📦 安装指南

文档未提及安装步骤，跳过此章节。

💻 使用示例

文档未提供代码示例，跳过此章节。

📚 详细文档

模型信息

属性	详情
模型类型	自动语音识别模型
训练数据	mozilla-foundation/common_voice_8_0

评估结果

本模型在评估集上取得了以下结果：

损失值（Loss）：0.5684
词错误率（Wer）：0.4402

评估命令

在 mozilla-foundation/common_voice_8_0 测试集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v1 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs

在 speech-recognition-community-v2/dev_data 上进行评估上索布语在 speech-recognition-community-v2/dev_data 中不可用。

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.00045
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：2
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β=(0.9, 0.999)，ε=1e-08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：50
混合精度训练（mixed_precision_training）：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率
8.972	3.23	100	3.7498	1.0
3.3401	6.45	200	3.2320	1.0
3.2046	9.68	300	3.1741	0.9806
2.4031	12.9	400	1.0579	0.8996
1.0427	16.13	500	0.7989	0.7557
0.741	19.35	600	0.6405	0.6299
0.5699	22.58	700	0.6129	0.5928
0.4607	25.81	800	0.6548	0.5695
0.3827	29.03	900	0.6268	0.5190
0.3282	32.26	1000	0.5919	0.5016
0.2764	35.48	1100	0.5953	0.4805
0.2335	38.71	1200	0.5717	0.4728
0.2106	41.94	1300	0.5674	0.4569
0.1859	45.16	1400	0.5685	0.4502
0.1592	48.39	1500	0.5684	0.4402