wav2vec2-large-xls-r-300m-kk-with-LM开源模型 - 支持语言增强的哈萨克语语音识别

首页

Wav2vec2 Large Xls R 300m Kk With LM

由 DrishtiSharma 开发

该模型是基于facebook/wav2vec2-xls-r-300m在哈萨克语(KK)数据集上微调的自动语音识别(ASR)模型，支持语言模型(LM)增强

语音识别

Transformers

其他开源协议:Apache-2.0 #哈萨克语语音识别 #低词错误率 #多场景适配

下载量 22

发布时间 : 3/2/2022

模型简介

这是一个针对哈萨克语优化的自动语音识别模型，在Common Voice 8.0数据集上训练，可用于将哈萨克语语音转换为文本

模型特点

语言模型增强

模型结合了语言模型(LM)进行后处理，提高了识别准确率

多数据集评估

在Common Voice和鲁棒语音事件等多个数据集上进行评估

大规模预训练

基于300M参数的wav2vec2-XLS-R模型微调，具有强大的语音特征提取能力

模型能力

哈萨克语语音识别

语音转文本

支持语言模型后处理

使用案例

语音转录

哈萨克语语音转录

将哈萨克语语音内容转换为文本

在Common Voice 8.0测试集上WER为41.7%

语音助手

哈萨克语语音指令识别

用于哈萨克语语音助手或控制系统的语音指令识别

🚀 wav2vec2-large-xls-r-300m-kk-with-LM 语音识别模型

本模型是一个用于自动语音识别的模型，基于特定数据集进行微调，在评估集上取得了一定的识别效果，可用于哈萨克语的语音识别任务。

📚 详细文档

模型信息

属性	详情
语言	哈萨克语（kk）
许可证	Apache-2.0
标签	自动语音识别、基于 Mozilla 基金会的 Common Voice 8.0 数据集、由训练器生成、哈萨克语、鲁棒语音事件、对话模型、HF 自动语音识别排行榜
数据集	mozilla-foundation/common_voice_8_0
模型名称	wav2vec2-large-xls-r-300m-kk-with-LM

评估结果

本模型在不同数据集上的评估结果如下：

任务	数据集	指标	值
自动语音识别	Common Voice 8（ru）	测试词错误率（WER）	0.4355
自动语音识别	Common Voice 8（ru）	测试字符错误率（CER）	0.10469915859660263
自动语音识别	Common Voice 8（ru，+LM）	测试词错误率（WER）	0.417
自动语音识别	Common Voice 8（ru，+LM）	测试字符错误率（CER）	0.10319098269566598
自动语音识别	Robust Speech Event - Dev Data（kk）	测试词错误率（WER）	NA
自动语音识别	Robust Speech Event - Dev Data（kk）	测试字符错误率（CER）	NA
自动语音识别	Common Voice 8.0（kk）	测试词错误率（WER）	41.7
自动语音识别	Robust Speech Event - Test Data（kk）	测试词错误率（WER）	67.09

评估命令

在 mozilla-foundation/common_voice_8_0 测试集上进行评估：

python eval.py  --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-kk-with-LM  --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs

在 speech-recognition-community-v2/dev_data 上评估：

⚠️ 重要提示

哈萨克语在 speech-recognition-community-v2/dev_data 中不可用。

训练超参数

训练过程中使用的超参数如下：

学习率：0.000222
训练批次大小：16
评估批次大小：8
随机种子：42
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：150.0
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
9.6799	9.09	200	3.6119	1.0
3.1332	18.18	400	2.5352	1.005
1.0465	27.27	600	0.6169	0.682
0.3452	36.36	800	0.6572	0.607
0.2575	45.44	1000	0.6527	0.578
0.2088	54.53	1200	0.6828	0.551
0.158	63.62	1400	0.7074	0.5575
0.1309	72.71	1600	0.6523	0.5595
0.1074	81.8	1800	0.7262	0.5415
0.087	90.89	2000	0.7199	0.521
0.0711	99.98	2200	0.7113	0.523
0.0601	109.09	2400	0.6863	0.496
0.0451	118.18	2600	0.6998	0.483
0.0378	127.27	2800	0.6971	0.4615
0.0319	136.36	3000	0.7119	0.4475
0.0305	145.44	3200	0.7181	0.459

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

评估命令示例

!python eval.py \
    --model_id DrishtiSharma/wav2vec2-xls-r-300m-kk-n2 \
    --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs