pipeline_tag: fill-mask
language:
- 阿法尔语
- 南非荷兰语
- 阿姆哈拉语
- 阿坎语
- 班巴拉语
- 富拉语
- 丰语
- 豪萨语
- 伊博语
- 基库尤语
- 卢干达语
- 林加拉语
- 马尔加什语
- 南恩德贝莱语
- 奥罗莫语
- 基隆迪语
- 基隆迪语变体
- 斯瓦希里语
- 绍纳语
- 茨瓦纳语
- 提格里尼亚语
- 文达语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 祖鲁语
tags:
- 掩码语言模型
- arxiv:2212.10785
widget:
- text: ẹ jọwọ , ẹ mi.(约鲁巴语:请我)
- text: gbọ́ láìfọ̀rọ̀ gùn rárá.(约鲁巴语:未经询问就了)
塞伦盖蒂
多语言预训练语言模型(mPLMs)在预训练过程中获取了宝贵且可泛化的语言信息,推动了任务特定微调的技术前沿。
迄今为止,现有语言模型仅覆盖约2000种非洲语言中的31种。我们通过开发塞伦盖蒂模型系列来改善这一局限,这套大规模多语言模型覆盖了517种非洲语言及其变体。我们在20个数据集上对8项自然语言理解任务进行评估,与覆盖4-23种非洲语言的4个mPLMs进行对比。
塞伦盖蒂在8个任务的11个数据集上表现优异,平均F1分数达82.27。我们还进行了错误分析,探究了零样本设置下语言谱系和语言相似性的影响。我们将公开模型供研究使用。
3. 如何使用塞伦盖蒂模型
以下是使用塞伦盖蒂预测掩码标记的示例:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("UBC-NLP/serengeti", use_auth_token="XXX")
model = AutoModelForMaskedLM.from_pretrained("UBC-NLP/serengeti", use_auth_token="XXX")
from transformers import pipeline
classifier = pipeline("fill-mask", model=model, tokenizer=tokenizer)
classifier("ẹ jọwọ , ẹ <mask> mi")
[{'score': 0.07887924462556839,
'token': 8418,
'token_str': 'ọmọ',
'sequence': 'ẹ jọwọ, ẹ ọmọ mi'},
{'score': 0.04658124968409538,
'token': 156595,
'token_str': 'fẹ́ràn',
'sequence': 'ẹ jọwọ, ẹ fẹ́ràn mi'},
{'score': 0.029315846040844917,
'token': 204050,
'token_str': 'gbàgbé',
'sequence': 'ẹ jọwọ, ẹ gbàgbé mi'},
{'score': 0.02790883742272854,
'token': 10730,
'token_str': 'kọ',
'sequence': 'ẹ jọwọ, ẹ kọ mi'},
{'score': 0.022904086858034134,
'token': 115382,
'token_str': 'bẹ̀rù',
'sequence': 'ẹ jọwọ, ẹ bẹ̀rù mi'}]
更多细节请参阅此笔记本
4. 伦理考量
塞伦盖蒂遵循非洲中心主义的NLP理念,在技术开发中充分考虑非洲人民的需求。我们相信该模型不仅能惠及所支持语言的使用者,也将助力人类学家、语言学家等非洲语言研究者。以下是具体应用场景与广泛影响:
- 针对全球约90%语言缺乏技术支持的现状(这本质上构成对母语者的歧视),塞伦盖蒂通过聚焦非洲大陆作出回应。据我们所知,这是首个面向非洲语言及变体的大规模多语言PLM。涵盖517种非洲语言的规模,在当前非洲NLP领域堪称空前。
- 该模型能通过非洲本土语言为社区提供重要信息,特别惠及非其他语言熟练者,有望促进全球互联。
- 为众多濒危非洲语言提供保存契机。模型包含的语言中有许多此前从未用于任何NLP任务,我们期待它能激发这些语言在多领域的持续使用,并推动相关语言技术发展。
- 为减少歧视与偏见,我们采用人工筛选数据集,并邀请阿非利卡语、约鲁巴语等13种语言的母语者对数据质量进行人工评估。数据来源涵盖多领域以确保语言使用的代表性。
- 尽管语言模型应用广泛,但存在滥用风险。塞伦盖蒂基于可能携带偏见的公开数据集开发。虽然我们通过案例研究进行性能诊断,但受限于大多数语言缺乏母语者验证,无法保证完全消除数据偏见。
支持语言
详见支持语言列表
引用
若在科研中使用塞伦盖蒂预训练模型,或认为本资源有价值,请引用我们的论文(待更新):
@inproceedings{adebara-etal-2023-serengeti,
title = "{SERENGETI}: Massively Multilingual Language Models for {A}frica",
author = "Adebara, Ife and
Elmadany, AbdelRahim and
Abdul-Mageed, Muhammad and
Alcoba Inciarte, Alcides",
booktitle = "Findings of the Association for Computational Linguistics: ACL 2023",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.findings-acl.97",
doi = "10.18653/v1/2023.findings-acl.97",
pages = "1498--1537",
}
致谢
我们衷心感谢加拿大研究讲席计划(CRC)、加拿大自然科学与工程研究委员会(NSERC)、加拿大社会科学与人文研究委员会(SSHRC)、加拿大创新基金会(CFI)、加拿大数字研究联盟、UBC ARC-Sockeye、超威半导体(AMD)和谷歌的支持。本文观点仅代表作者,不代表上述机构立场。