license: mit
tags:
- generated_from_trainer
model-index:
- name: afro-xlmr-large
results: []
language:
- en
- fr
- ar
- ha
- ig
- yo
- rn
- rw
- sn
- xh
- zu
- om
- am
- so
- st
- ny
- mg
- sw
- af
afro-xlmr-large
AfroXLMR-large模型是通过对XLM-R-large模型在17种非洲语言(包括南非荷兰语、阿姆哈拉语、豪萨语、伊博语、马尔加什语、奇契瓦语、奥罗莫语、尼日利亚皮钦语、基尼亚卢旺达语、基隆迪语、绍纳语、索马里语、塞索托语、斯瓦希里语、科萨语、约鲁巴语和祖鲁语)上进行掩码语言建模(MLM)适应性训练而创建的,涵盖了非洲主要语系以及3种高资源语言(阿拉伯语、法语和英语)。
MasakhaNER评估结果(F1分数)
语言 |
XLM-R-miniLM |
XLM-R-base |
XLM-R-large |
afro-xlmr-large |
afro-xlmr-base |
afro-xlmr-small |
afro-xlmr-mini |
阿姆哈拉语 |
69.5 |
70.6 |
76.2 |
79.7 |
76.1 |
70.1 |
69.7 |
豪萨语 |
74.5 |
89.5 |
90.5 |
91.4 |
91.2 |
91.4 |
87.7 |
伊博语 |
81.9 |
84.8 |
84.1 |
87.7 |
87.4 |
86.6 |
83.5 |
基尼亚卢旺达语 |
68.6 |
73.3 |
73.8 |
79.1 |
78.0 |
77.5 |
74.1 |
卢干达语 |
64.7 |
79.7 |
81.6 |
86.7 |
82.9 |
83.2 |
77.4 |
卢奥语 |
11.7 |
74.9 |
73.6 |
78.1 |
75.1 |
75.4 |
17.5 |
尼日利亚皮钦语 |
83.2 |
87.3 |
89.0 |
91.0 |
89.6 |
89.0 |
85.5 |
斯瓦希里语 |
86.3 |
87.4 |
89.4 |
90.4 |
88.6 |
88.7 |
86.0 |
沃洛夫语 |
51.7 |
63.9 |
67.9 |
69.6 |
67.4 |
65.9 |
59.0 |
约鲁巴语 |
72.0 |
78.3 |
78.9 |
85.2 |
82.1 |
81.3 |
75.1 |
平均 |
66.4 |
79.0 |
80.5 |
83.9 |
81.8 |
80.9 |
71.6 |
BibTeX条目及引用信息
@inproceedings{alabi-etal-2022-adapting,
title = "通过多语言适应性微调将预训练语言模型适配至非洲语言",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "第29届国际计算语言学会议论文集",
month = "10月",
year = "2022",
address = "韩国庆州",
publisher = "国际计算语言学委员会",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
abstract = "多语言预训练语言模型(PLM)在多种下游任务中展现了卓越性能,无论对高资源还是低资源语言皆如此。然而,对于预训练阶段未见的语言(尤其是非洲语言),性能仍存在显著差距。最有效的适配方法之一是语言适应性微调(LAFT)——使用预训练目标在目标语言的单语文本上对多语言PLM进行微调。但单独适配每种目标语言会占用大量存储空间,并因模型专用于单一语言而限制其跨语言迁移能力。本文通过对17种资源最丰富的非洲语言及非洲大陆广泛使用的3种其他高资源语言进行多语言适应性微调(MAFT),以促进跨语言迁移学习。为进一步专业化多语言PLM,我们在MAFT前移除了嵌入层中与非非洲文字脚本对应的词汇标记,使模型体积减少约50%。基于两种多语言PLM(AfriBERTa和XLM-R)和三项NLP任务(命名实体识别、新闻主题分类和情感分类)的评估表明,我们的方法在显著减少存储需求的同时,性能可与单独应用LAFT相媲美。此外,我们还证明适配后的PLM能提升参数高效微调方法的零样本跨语言迁移能力。",
}