wav2vec2-xls-r-pt-cv7-from-bp400h开源模型 - 精准实现葡萄牙语自动语音识别

首页

Wav2vec2 Xls R Pt Cv7 From Bp400h

由 lgris 开发

这是一个基于wav2vec2 XLS-R架构的葡萄牙语自动语音识别(ASR)模型，在Common Voice 7数据集上微调，在测试集上取得12.13%的词错误率(WER)。

语音识别

Transformers

其他开源协议:Apache-2.0 #葡萄牙语语音识别 #低词错误率 #鲁棒语音处理

下载量 94

发布时间 : 3/2/2022

模型简介

该模型专门用于葡萄牙语语音识别任务，基于Facebook的wav2vec2 XLS-R架构，并在Mozilla Common Voice 7.0数据集上进行了微调优化。

模型特点

高性能葡萄牙语识别

在Common Voice 7葡萄牙语测试集上达到12.13%的词错误率(WER)和3.68%的字错误率(CER)

基于强大预训练模型

基于lgris/bp_400h_xlsr2_300M预训练模型进行微调，具备良好的语音特征提取能力

多场景评估

除了Common Voice数据集外，还在鲁棒语音赛事数据集上进行了评估，展示了模型在不同场景下的表现

模型能力

葡萄牙语语音识别

自动转写语音为文本

处理不同口音的葡萄牙语

使用案例

语音转文字

语音备忘录转录

将葡萄牙语语音备忘录自动转换为可搜索的文本

准确率达87.87% (基于WER 12.13%计算)

语音助手

为葡萄牙语语音助手提供语音识别能力

无障碍技术

实时字幕生成

为葡萄牙语视频内容生成实时字幕

🚀 wav2vec2-xls-r-pt-cv7-from-bp400h

这个模型是基于自动语音识别技术的模型，它在常见语音数据集上对 lgris/bp_400h_xlsr2_300M 进行了微调，在评估集上取得了不错的效果。

🚀 快速开始

此部分暂未提供相关内容。

✨ 主要特性

多语言支持：支持葡萄牙语（pt）的自动语音识别。
微调优化：在 common_voice 数据集上对预训练模型进行了微调，提升了特定任务的性能。
多指标评估：通过 WER（词错误率）和 CER（字符错误率）等指标进行评估，确保模型性能。

📚 详细文档

模型信息

属性	详情
模型类型	自动语音识别模型
训练数据	mozilla-foundation/common_voice_7_0 数据集
许可证	apache - 2.0

评估结果

该模型在多个数据集上进行了评估，以下是具体结果：

数据集名称	任务类型	测试 WER	测试 CER
Common Voice 7	自动语音识别	12.13	3.68
Robust Speech Event - Dev Data (sv)	自动语音识别	28.23	12.58
Robust Speech Event - Dev Data (pt)	自动语音识别	26.58	-
Robust Speech Event - Test Data (pt)	自动语音识别	26.86	-

该模型在评估集上还取得了以下结果：

损失值（Loss）: 0.1535
词错误率（Wer）: 0.1254

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）: 0.0001
训练批次大小（train_batch_size）: 8
评估批次大小（eval_batch_size）: 8
随机种子（seed）: 42
梯度累积步数（gradient_accumulation_steps）: 2
总训练批次大小（total_train_batch_size）: 16
优化器（optimizer）: Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型（lr_scheduler_type）: 线性
学习率调度器热身步数（lr_scheduler_warmup_steps）: 100
训练步数（training_steps）: 5000

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
0.4991	0.13	100	0.1774	0.1464
0.4655	0.26	200	0.1884	0.1568
0.4689	0.39	300	0.2282	0.1672
0.4662	0.52	400	0.1997	0.1584
0.4592	0.65	500	0.1989	0.1663
0.4533	0.78	600	0.2004	0.1698
0.4391	0.91	700	0.1888	0.1642
0.4655	1.04	800	0.1921	0.1624
0.4138	1.17	900	0.1950	0.1602
0.374	1.3	1000	0.2077	0.1658
0.4064	1.43	1100	0.1945	0.1596
0.3922	1.56	1200	0.2069	0.1665
0.4226	1.69	1300	0.1962	0.1573
0.3974	1.82	1400	0.1919	0.1553
0.3631	1.95	1500	0.1854	0.1573
0.3797	2.08	1600	0.1902	0.1550
0.3287	2.21	1700	0.1926	0.1598
0.3568	2.34	1800	0.1888	0.1534
0.3415	2.47	1900	0.1834	0.1502
0.3545	2.6	2000	0.1906	0.1560
0.3344	2.73	2100	0.1804	0.1524
0.3308	2.86	2200	0.1741	0.1485
0.344	2.99	2300	0.1787	0.1455
0.309	3.12	2400	0.1773	0.1448
0.312	3.25	2500	0.1738	0.1440
0.3066	3.38	2600	0.1727	0.1417
0.2999	3.51	2700	0.1692	0.1436
0.2985	3.64	2800	0.1732	0.1430
0.3058	3.77	2900	0.1754	0.1402
0.2943	3.9	3000	0.1691	0.1379
0.2813	4.03	3100	0.1754	0.1376
0.2733	4.16	3200	0.1639	0.1363
0.2592	4.29	3300	0.1675	0.1349
0.2697	4.42	3400	0.1618	0.1360
0.2538	4.55	3500	0.1658	0.1348
0.2746	4.67	3600	0.1674	0.1325
0.2655	4.8	3700	0.1655	0.1319
0.2745	4.93	3800	0.1665	0.1316
0.2617	5.06	3900	0.1600	0.1311
0.2674	5.19	4000	0.1623	0.1311
0.237	5.32	4100	0.1591	0.1315
0.2669	5.45	4200	0.1584	0.1295
0.2476	5.58	4300	0.1572	0.1285
0.2445	5.71	4400	0.1580	0.1271
0.2207	5.84	4500	0.1567	0.1269
0.2289	5.97	4600	0.1536	0.1260
0.2438	6.1	4700	0.1530	0.1260
0.227	6.23	4800	0.1544	0.1249
0.2256	6.36	4900	0.1543	0.1254
0.2184	6.49	5000	0.1535	0.1254