wav2vec2-large-xls-r-300m-sr-v4开源语音识别模型

首页

Wav2vec2 Large Xls R 300m Sr V4

由 DrishtiSharma 开发

基于facebook/wav2vec2-xls-r-300m在塞尔维亚语(sr)数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #塞尔维亚语ASR #低词错误率 #多场景语音识别

下载量 28

发布时间 : 3/2/2022

模型简介

该模型是针对塞尔维亚语的自动语音识别(ASR)任务优化的wav2vec2模型，在Common Voice 8数据集上微调，支持塞尔维亚语语音转文本任务。

模型特点

塞尔维亚语优化

专门针对塞尔维亚语进行微调，在Common Voice 8数据集上表现良好

基于大模型

基于facebook的wav2vec2-xls-r-300m大模型架构，具备强大的语音特征提取能力

多场景评估

在Common Voice和鲁棒语音赛事等多个数据集上进行评估

模型能力

塞尔维亚语语音识别

语音转文本

长音频处理(支持分块处理)

使用案例

语音转录

塞尔维亚语语音转录

将塞尔维亚语语音转换为文本

在Common Voice 8测试集上WER为30.33%

语音识别系统

语音助手

用于塞尔维亚语语音助手开发

🚀 wav2vec2-large-xls-r-300m-sr-v4

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SR数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在自动语音识别任务中表现出色，能够有效处理语音数据，将语音准确转换为文本。

🚀 快速开始

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SR数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在评估集上取得了以下结果：

损失值：0.5570
词错误率（Wer）：0.3038

💻 使用示例

基础用法

以下是在不同数据集上进行评估的命令示例：

1. 在mozilla - foundation/common_voice_8_0的测试分割集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset mozilla-foundation/common_voice_8_0 --config sr --split test --log_outputs

2. 在speech - recognition - community - v2/dev_data上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset speech-recognition-community-v2/dev_data --config sr --split validation --chunk_length_s 10 --stride_length_s 1

🔧 技术细节

训练超参数

在训练过程中使用了以下超参数：

学习率：0.0003
训练批次大小：16
评估批次大小：8
随机种子：42
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：800
训练轮数：200
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
8.2934	7.5	300	2.9777	0.9995
1.5049	15.0	600	0.5036	0.4806
0.3263	22.5	900	0.5822	0.4055
0.2008	30.0	1200	0.5609	0.4032
0.1543	37.5	1500	0.5203	0.3710
0.1158	45.0	1800	0.6458	0.3985
0.0997	52.5	2100	0.6227	0.4013
0.0834	60.0	2400	0.6048	0.3836
0.0665	67.5	2700	0.6197	0.3686
0.0602	75.0	3000	0.5418	0.3453
0.0524	82.5	3300	0.5310	0.3486
0.0445	90.0	3600	0.5599	0.3374
0.0406	97.5	3900	0.5958	0.3327
0.0358	105.0	4200	0.6017	0.3262
0.0302	112.5	4500	0.5613	0.3248
0.0285	120.0	4800	0.5659	0.3462
0.0213	127.5	5100	0.5568	0.3206
0.0215	135.0	5400	0.6524	0.3472
0.0162	142.5	5700	0.6223	0.3458
0.0137	150.0	6000	0.6625	0.3313
0.0114	157.5	6300	0.5739	0.3336
0.0101	165.0	6600	0.5906	0.3285
0.008	172.5	6900	0.5982	0.3112
0.0076	180.0	7200	0.5399	0.3094
0.0071	187.5	7500	0.5387	0.2991
0.0057	195.0	7800	0.5570	0.3038