wav2vec2-large-xls-r-300m-sl-with-LM-v2开源模型 - 精准识别斯洛文尼亚语语音

首页

Wav2vec2 Large Xls R 300m Sl With LM V2

由 DrishtiSharma 开发

这是一个基于facebook/wav2vec2-xls-r-300m在斯洛文尼亚语(common_voice_8_0)数据集上微调的自动语音识别(ASR)模型，支持语言模型(LM)增强。

语音识别

Transformers

其他开源协议:Apache-2.0 #斯洛文尼亚语语音识别 #高精度WER优化 #多场景语音转写

下载量 26

发布时间 : 3/2/2022

模型简介

该模型专门用于斯洛文尼亚语的语音识别任务，在Common Voice 8数据集上表现出色，支持语言模型增强以提高识别准确率。

模型特点

语言模型增强

支持语言模型(LM)增强，显著提高识别准确率(WER从0.217降至0.146)

多数据集验证

在Common Voice 8和鲁棒语音事件数据集上进行了全面评估

高效训练

采用混合精度训练和线性学习率调度器优化训练过程

模型能力

斯洛文尼亚语语音识别

长音频处理(支持分块处理)

语言模型集成

使用案例

语音转录

语音转文字

将斯洛文尼亚语语音转换为文字

在Common Voice 8测试集上达到WER 0.217(无LM)/0.146(有LM)

语音助手

斯洛文尼亚语语音指令识别

用于语音助手或语音控制系统的指令识别

在鲁棒语音事件测试集上WER 46.69

🚀 wav2vec2-large-xls-r-300m-sl-with-LM-v2

本模型是基于自动语音识别技术的模型，在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SL数据集上微调，能有效实现语音识别功能，并在相关评估集上取得了良好的指标成绩。

🚀 快速开始

本模型是 facebook/wav2vec2-xls-r-300m 在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SL数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.2855
字错率（Wer）：0.2401

评估命令

在 mozilla - foundation/common_voice_8_0 测试集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v2 --dataset mozilla-foundation/common_voice_8_0 --config sl --split test --log_outputs

在 speech - recognition - community - v2/dev_data 数据集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v2 --dataset speech-recognition-community-v2/dev_data --config sl --split validation --chunk_length_s 10 --stride_length_s 1

✨ 主要特性

模型指标

属性	详情
模型名称	wav2vec2-large-xls-r-300m-sl-with-LM-v2
支持语言	斯洛文尼亚语（sl）
许可证	Apache - 2.0
适用任务	自动语音识别
训练数据集	mozilla - foundation/common_voice_8_0
测试集字错率（Test WER）	0.21695212999560826
测试集字符错误率（Test CER）	0.052850080572474256
测试集字错率（+LM）	0.14551310203484116
测试集字符错误率（+LM）	0.03927566711277415
开发集字错率（Dev WER）	0.560722380639029
开发集字符错误率（Dev CER）	0.2279626093074681
开发集字错率（+LM）	0.46486802661402354
开发集字符错误率（+LM）	0.21105136194592422

🔧 技术细节

训练超参数

以下是训练过程中使用的超参数：

学习率：7e - 05
训练批次大小：32
评估批次大小：32
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：100.0
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
6.9294	6.1	500	2.9712	1.0
2.8305	12.2	1000	1.7073	0.9479
1.4795	18.29	1500	0.5756	0.6397
1.3433	24.39	2000	0.4968	0.5424
1.1766	30.49	2500	0.4185	0.4743
1.0017	36.59	3000	0.3303	0.3578
0.9358	42.68	3500	0.3003	0.3051
0.8358	48.78	4000	0.3045	0.2884
0.7647	54.88	4500	0.2866	0.2677
0.7482	60.98	5000	0.2829	0.2585
0.6943	67.07	5500	0.2782	0.2478
0.6586	73.17	6000	0.2911	0.2537
0.6425	79.27	6500	0.2817	0.2462
0.6067	85.37	7000	0.2910	0.2436
0.5974	91.46	7500	0.2875	0.2430
0.5812	97.56	8000	0.2852	0.2396