wav2vec2-xls-r-1b-ka开源自动语音识别模型 - 免费部署实现格鲁吉亚语语音识别

首页

Wav2vec2 Xls R 1b Ka

由 arampacha 开发

基于facebook/wav2vec2-xls-r-1b在格鲁吉亚语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #格鲁吉亚语语音识别 #低词错误率 #多场景适配

下载量 25

发布时间 : 3/2/2022

模型简介

该模型是针对格鲁吉亚语优化的自动语音识别(ASR)模型，在Mozilla Common Voice和鲁棒语音事件数据集上表现出色

模型特点

高性能语音识别

在格鲁吉亚语语音识别任务中取得低词错误率(WER)和字符错误率(CER)

大规模预训练基础

基于10亿参数的wav2vec2-xls-r模型微调，具备强大的语音特征提取能力

多数据集验证

在Common Voice和鲁棒语音事件等多个数据集上进行了性能验证

模型能力

格鲁吉亚语语音识别

语音转文本

鲁棒语音处理

使用案例

语音转录

格鲁吉亚语语音转写

将格鲁吉亚语语音内容转换为文本

词错误率7.4%，字符错误率1.19%

语音助手

格鲁吉亚语语音交互

支持格鲁吉亚语语音命令识别

在鲁棒语音事件数据集上词错误率21.58-22.61%

🚀 wav2vec2-xls-r-1b-ka

本模型是基于自动语音识别技术的模型，它在特定数据集上对 facebook/wav2vec2-xls-r-1b 进行微调，在评估集上取得了较好的结果，可用于语音识别相关任务。

📄 许可证

本项目采用 Apache-2.0 许可证。

📋 模型信息

属性	详情
模型类型	自动语音识别模型
训练数据	common_voice
标签	automatic-speech-recognition、mozilla-foundation/common_voice_8_0、generated_from_trainer、robust-speech-event、hf-asr-leaderboard

📊 模型评估结果

1. Common Voice ka 数据集

指标	值
WER LM	7.39778066580026
CER LM	1.1882089427096434

2. Robust Speech Event - Dev Data 数据集

指标	值
Test WER	22.61

3. Robust Speech Event - Test Data 数据集

指标	值
Test WER	21.58

模型在评估集的结果

Loss: 0.1022
Wer: 0.1527
Cer: 0.0221

🔧 训练过程

训练超参数

学习率（learning_rate）: 7e-05
训练批次大小（train_batch_size）: 16
评估批次大小（eval_batch_size）: 64
随机种子（seed）: 42
梯度累积步数（gradient_accumulation_steps）: 8
总训练批次大小（total_train_batch_size）: 128
优化器（optimizer）: Adam（betas=(0.9,0.98)，epsilon=1e-08）
学习率调度器类型（lr_scheduler_type）: cosine
学习率调度器热身比例（lr_scheduler_warmup_ratio）: 0.1
训练步数（training_steps）: 4000
混合精度训练（mixed_precision_training）: Native AMP

训练结果

训练损失	轮数	步数	验证损失	Wer	Cer
1.2839	6.45	400	0.2229	0.3609	0.0557
0.9775	12.9	800	0.1271	0.2202	0.0317
0.9045	19.35	1200	0.1268	0.2030	0.0294
0.8652	25.8	1600	0.1211	0.1940	0.0287
0.8505	32.26	2000	0.1192	0.1912	0.0276
0.8168	38.7	2400	0.1086	0.1763	0.0260
0.7737	45.16	2800	0.1098	0.1753	0.0256
0.744	51.61	3200	0.1054	0.1646	0.0239
0.7114	58.06	3600	0.1034	0.1573	0.0228
0.6773	64.51	4000	0.1022	0.1527	0.0221