wav2vec2-xls-r-300m-ca开源语音识别模型 - 支持加泰罗尼亚语自动语音识别

首页

Wav2vec2 Xls R 300m Ca

由 PereLluis13 开发

基于facebook/wav2vec2-xls-r-300m在加泰罗尼亚语数据集上微调的语音识别模型，支持自动语音识别任务。

语音识别

Transformers

其他开源协议:Apache-2.0 #加泰罗尼亚语语音识别 #多领域数据集训练 #低词错误率

下载量 116

发布时间 : 3/2/2022

模型简介

该模型是针对加泰罗尼亚语的自动语音识别(ASR)模型，在多个加泰罗尼亚语数据集上进行了微调，能够将语音转换为文本。

模型特点

多数据集训练

在MOZILLA-FOUNDATION/COMMON_VOICE_8_0、tv3_parla和parlament_parla等多个加泰罗尼亚语数据集上进行了微调

数字转换支持

使用特殊处理将数字转换为文字形式，提高数字识别准确率

优化的训练流程

采用精心设计的预处理流程和训练超参数，包括线性学习率调度和AMP混合精度训练

模型能力

加泰罗尼亚语语音识别

语音转文本

数字识别

使用案例

媒体转录

电视节目字幕生成

为加泰罗尼亚语电视节目自动生成字幕

在tv3_parla数据集上WER为23.32%

会议记录

议会会议记录

自动转录加泰罗尼亚议会会议内容

在parlament_parla数据集上WER为8.05%

语音助手

加泰罗尼亚语语音输入

为加泰罗尼亚语语音助手提供语音识别能力

在Common Voice数据集上WER为13.17%

🚀 wav2vec2-xls-r-300m-ca

本模型是在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - CA、tv3_parla和parlament_parla数据集上对facebook/wav2vec2-xls-r-300m进行微调后的版本。它在评估集（针对这三个数据集）上取得了以下结果：

损失：0.2472
词错误率（Wer）：0.1499

✨ 主要特性

基于预训练模型facebook/wav2vec2-xls-r-300m进行微调，适用于加泰罗尼亚语的自动语音识别任务。
在多个数据集上进行训练和评估，具有较好的性能表现。

📚 详细文档

模型描述

请查看原始的facebook/wav2vec2-xls-r-1b模型卡片。这只是该模型的微调版本。

预期用途和限制

与任何基于众包数据训练的模型一样，该模型可能会体现出用于训练的数据和模型的偏差和特性。此外，由于这是一个语音识别模型，对于加泰罗尼亚语中一些资源较少的方言，其性能可能会有所下降。

训练和评估数据

更多信息待补充。

训练过程

数据经过预处理，去除了不在加泰罗尼亚语字母表中的字符。此外，使用@ccoreilly提供的代码将数字进行了口语化处理，该代码可以在text/文件夹中找到，也可以在此处查看。

训练超参数

训练期间使用了以下超参数：

学习率：7.5e - 05
训练批次大小：32
评估批次大小：32
随机种子：42
梯度累积步数：4
总训练批次大小：128
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：2000
训练轮数：18.0
混合精度训练：原生自动混合精度（Native AMP）

训练结果

请查看Tensorboard标签页，以查看训练过程和评估结果。该模型在训练过程中对每个数据集的测试分割进行了评估。

训练损失	轮数	步数	验证损失	词错误率（Wer）
6.2099	0.09	500	3.4125	1.0
2.9961	0.18	1000	2.9224	1.0
2.2147	0.26	1500	0.6521	0.5568
1.3017	0.35	2000	0.3153	0.2761
1.1196	0.44	2500	0.2444	0.2367
1.0712	0.53	3000	0.2324	0.2132
1.052	0.62	3500	0.2173	0.2032
1.2813	2.13	4000	0.3326	0.2099
1.2365	2.4	4500	0.3224	0.2003
1.2193	2.66	5000	0.3198	0.1957
1.2072	2.93	5500	0.3063	0.1933
1.213	3.2	6000	0.3051	0.1980
1.2074	3.46	6500	0.3012	0.1879
1.1918	3.73	7000	0.2947	0.1829
1.1893	4.0	7500	0.2895	0.1807
1.1751	4.26	8000	0.2878	0.1776
1.1628	4.53	8500	0.2835	0.1731
1.1577	4.79	9000	0.2816	0.1761
1.1448	5.06	9500	0.2757	0.1740
1.1407	5.33	10000	0.2768	0.1798
1.1401	5.59	10500	0.2780	0.1816
1.1333	5.86	11000	0.2748	0.1750
1.1571	6.13	11500	0.2808	0.1708
1.1505	6.39	12000	0.2726	0.1692
1.1519	6.66	12500	0.2749	0.1654
1.136	6.93	13000	0.2765	0.1643
1.1326	7.19	13500	0.2706	0.1668
1.1342	7.46	14000	0.2665	0.1638
1.1286	7.72	14500	0.2669	0.1636
1.1243	7.99	15000	0.2619	0.1623
1.1173	8.26	15500	0.2652	0.1604
1.1129	8.52	16000	0.2610	0.1598
1.1091	8.79	16500	0.2608	0.1584
1.1053	9.06	17000	0.2633	0.1664
1.1004	9.32	17500	0.2594	0.1662
1.0995	9.59	18000	0.2623	0.1569
1.0964	9.86	18500	0.2624	0.1597
1.09	10.12	19000	0.2577	0.1578
1.089	10.39	19500	0.2574	0.1531
1.0864	10.66	20000	0.2556	0.1546
1.0806	10.92	20500	0.2548	0.1583
1.0842	11.19	21000	0.2550	0.1542
1.0805	11.45	21500	0.2561	0.1524
1.0722	11.72	22000	0.2540	0.1566
1.0763	11.99	22500	0.2549	0.1572
1.0835	12.25	23000	0.2586	0.1521
1.0883	12.52	23500	0.2583	0.1519
1.0888	12.79	24000	0.2551	0.1582
1.0933	13.05	24500	0.2628	0.1537
1.0799	13.32	25000	0.2600	0.1508
1.0804	13.59	25500	0.2620	0.1475
1.0814	13.85	26000	0.2537	0.1517
1.0693	14.12	26500	0.2560	0.1542
1.0724	14.38	27000	0.2540	0.1574
1.0704	14.65	27500	0.2548	0.1626
1.0729	14.92	28000	0.2548	0.1601
1.0724	15.18	28500	0.2511	0.1512
1.0655	15.45	29000	0.2498	0.1490
1.0608	15.98	30000	0.2487	0.1481
1.0541	16.52	31000	0.2468	0.1504
1.0584	17.05	32000	0.2467	0.1493
1.0507	17.58	33000	0.2481	0.1517

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.18.3
Tokenizers 0.11.0

📄 许可证

本模型使用Apache 2.0许可证。

致谢

感谢@ccoreilly和@gullabi，他们贡献了自己的资源和知识，使得该模型得以实现。

模型指标信息表格

属性	详情
模型类型	基于`facebook/wav2vec2-xls-r-300m`微调的自动语音识别模型
训练数据	MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - CA、`collectivat/tv3_parla`、`projecte-aina/parlament_parla`
评估指标（部分数据集）	- `mozilla-foundation/common_voice_8_0 ca`：测试词错误率（WER）13.170091241317552，测试字符错误率（CER）3.356726205534543 - `projecte-aina/parlament_parla ca`：测试词错误率（WER）8.048005647723261，测试字符错误率（CER）2.240912911020065 - `collectivat/tv3_parla ca`：测试词错误率（WER）23.320629787889285，测试字符错误率（CER）10.439216202089989 - `speech-recognition-community-v2/dev_data ca`：测试词错误率（WER）31.99671115046487，测试字符错误率（CER）15.820020687277325 - `Robust Speech Event - Test Data`：测试词错误率（WER）22.04