xtreme_s_xlsr_300m_fleurs_langid开源模型 - 免费支持多语言语音识别任务

首页

Xtreme S Xlsr 300m Fleurs Langid

由 anton-l 开发

该模型是基于facebook/wav2vec2-xls-r-300m在GOOGLE/XTREME_S - FLEURS.ALL数据集上微调得到的版本，用于多语言语音识别任务。

音频分类

Transformers

其他开源协议:Apache-2.0 #多语言语音识别 #高准确率语言分类 #低资源语言支持

下载量 17

发布时间 : 4/6/2022

模型简介

这是一个基于wav2vec2-xls-r-300m架构的多语言语音识别模型，在FLEURS.ALL数据集上进行了微调，支持多种语言的语音识别任务。

模型特点

多语言支持

支持102种语言的语音识别，包括主流语言和部分小众语言

高准确率

在多种语言上达到较高的识别准确率，如阿拉伯语(99.77%)、孟加拉语(99.89%)等

基于XLS-R架构

采用facebook的wav2vec2-xls-r-300m架构，具有强大的语音特征提取能力

模型能力

语音识别

多语言处理

语言识别

语音转文本

使用案例

语音转写

多语言会议记录

用于多语言会议的实时语音转写

支持多种语言的准确转写

语音助手

用于多语言语音助手的语音识别模块

可识别多种语言的用户指令

语言学习

语言发音评估

用于语言学习应用中的发音评估

可识别多种语言的发音准确度

🚀 xtreme_s_xlsr_300m_fleurs_langid

该模型是在GOOGLE/XTREME_S - FLEURS.ALL数据集上对facebook/wav2vec2-xls-r-300m进行微调后的版本。它在评估集上取得了一系列的评估结果，能够用于语言识别等相关任务。

🚀 快速开始

此部分暂未提供相关内容，可参考后续训练和评估等信息进行使用。

✨ 主要特性

该模型基于微调技术，在特定数据集上进行训练，以提升语言识别的准确性。通过一系列的训练超参数设置和多GPU分布式训练，能够在多种语言上取得相应的识别效果。

📦 安装指南

此部分文档未提及安装步骤，暂无法提供。

💻 使用示例

此部分文档未提供代码示例，暂无法展示。

📚 详细文档

评估结果

该模型在评估集上的表现如下：

语言	准确率	损失
Af Za	0.3865	2.6778
Am Et	0.8818	0.4615
Ar Eg	0.9977	0.0149
As In	0.9858	0.0764
Ast Es	0.8362	0.4560
Az Az	0.8386	0.5677
Be By	0.4085	1.9231
Bn In	0.9989	0.0024
Bs Ba	0.2508	2.4954
Ca Es	0.6947	1.2632
Ceb Ph	0.9852	0.0426
Cmn Hans Cn	0.9799	0.0650
Cs Cz	0.5353	1.9334
Cy Gb	0.9716	0.1274
Da Dk	0.6688	1.4990
De De	0.7807	0.8820
El Gr	0.7692	0.9839
En Us	0.9815	0.0827
Es 419	0.9846	0.0516
Et Ee	0.5230	1.9264
Fa Ir	0.8462	0.6520
Ff Sn	0.2348	5.4283
Fi Fi	0.9978	0.0109
Fil Ph	0.9564	0.1706
Fr Fr	0.9852	0.0591
Ga Ie	0.8468	0.5174
Gl Es	0.5016	1.2657
Gu In	0.973	0.0850
Ha Ng	0.9163	0.3234
He Il	0.8043	0.8299
Hi In	0.9354	0.4190
Hr Hr	0.3654	2.9754
Hu Hu	0.8044	0.8345
Hy Am	0.9914	0.0329
Id Id	0.9869	0.0529
Ig Ng	0.9360	0.2523
Is Is	0.0217	6.5153
It It	0.8	0.8113
Ja Jp	0.7385	1.3968
Jv Id	0.5824	2.0009
Ka Ge	0.8611	0.6162
Kam Ke	0.4184	2.2192
Kea Cv	0.8692	0.5567
Kk Kz	0.8727	0.5592
Km Kh	0.7030	1.7358
Kn In	0.9630	0.1063
Ko Kr	0.9843	0.1519
Ku Arab Iq	0.9577	0.2075
Ky Kg	0.8936	0.4639
Lb Lu	0.8897	0.4454
Lg Ug	0.9253	0.3764
Ln Cd	0.9644	0.1844
Lo La	0.1580	3.8051
Lt Lt	0.4686	2.5054
Luo Ke	0.9922	0.0479
Lv Lv	0.6498	1.3713
Mi Nz	0.9613	0.1390
Mk Mk	0.7636	0.7952
Ml In	0.6962	1.2999
Mn Mn	0.8462	0.7621
Mr In	0.3911	3.7056
Ms My	0.3632	3.0192
Mt Mt	0.6188	1.5520
My Mm	0.9705	0.1514
Nb No	0.6891	1.1194
Ne Np	0.8994	0.4231
Nl Nl	0.9093	0.3291
Nso Za	0.8873	0.5106
Ny Mw	0.4691	2.7346
Oci Fr	0.1533	5.0983
Om Et	0.9512	0.2297
Or In	0.5447	2.5432
Pa In	0.8153	0.7753
Pl Pl	0.7757	0.7309
Ps Af	0.8105	1.0454
Pt Br	0.7715	0.9782
Ro Ro	0.4122	3.5829
Ru Ru	0.9794	0.0598
Rup Bg	0.9468	0.1695
Sd Arab In	0.5245	2.6198
Sk Sk	0.8624	0.5583
Sl Si	0.0300	6.0923
Sn Zw	0.8843	0.4465
So So	0.8803	0.4492
Sr Rs	0.0257	4.7575
Sv Se	0.0145	6.5858
Sw Ke	0.9199	0.4235
Ta In	0.9526	0.1818
Te In	0.9788	0.0808
Tg Tj	0.9883	0.0912
Th Th	0.9912	0.0462
Tr Tr	0.7887	0.7340
Uk Ua	0.0627	4.6777
Umb Ao	0.7863	1.4021
Ur Pk	0.0134	8.4067
Uz Uz	0.4014	4.3297
Vi Vn	0.7246	1.1304
Wo Sn	0.4555	2.2281
Xh Za	1.0	0.0009
Yo Ng	0.7353	1.3345
Yue Hant Hk	0.7985	1.0728
Zu Za	0.4696	3.7279
总体	-	1.3789
预测样本数	77960	-

训练过程

训练超参数

训练过程中使用的超参数如下：

属性	详情
学习率	0.0003
训练批次大小	8
评估批次大小	1
随机种子	42
分布式类型	多GPU
设备数量	8
总训练批次大小	64
总评估批次大小	8
优化器	Adam（betas=(0.9,0.999)，epsilon=1e-08）
学习率调度器类型	线性
学习率调度器热身步数	2000
训练轮数	5.0
混合精度训练	Native AMP

训练结果

训练损失	轮数	步数	准确率	验证损失
0.5296	0.26	1000	0.4016	2.6633
0.4252	0.52	2000	0.5751	1.8582
0.2989	0.78	3000	0.6332	1.6780
0.3563	1.04	4000	0.6799	1.4479
0.1617	1.3	5000	0.6679	1.5066
0.1409	1.56	6000	0.6992	1.4082
0.01	1.82	7000	0.7071	1.2448
0.0018	2.08	8000	0.7148	1.1996
0.0014	2.34	9000	0.6410	1.6505
0.0188	2.6	10000	0.6840	1.4050
0.0007	2.86	11000	0.6621	1.5831
0.1038	3.12	12000	0.6829	1.5441
0.0003	3.38	13000	0.6900	1.3483
0.0004	3.64	14000	0.6414	1.7070
0.0003	3.9	15000	0.7075	1.3198
0.0002	4.16	16000	0.7105	1.3118
0.0001	4.42	17000	0.7029	1.4099
0.0	4.68	18000	0.7180	1.3658
0.0001	4.93	19000	0.7236	1.3514