pipeline_tag: 填充掩码
language:
- 阿法尔语
- 南非荷兰语
- 阿姆哈拉语
- 阿坎语
- 班巴拉语
- 富拉语
- 丰语
- 豪萨语
- 伊博语
- 吉库尤语
- 卢干达语
- 林加拉语
- 马尔加什语
- 南恩德贝莱语
- 奥罗莫语
- 基隆迪语
- 隆迪语
- 斯瓦希里语
- 绍纳语
- 茨瓦纳语
- 提格里尼亚语
- 文达语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 祖鲁语
tags:
- 掩码语言模型
widget:
- text: ẹ jọwọ , ẹ mi.(约鲁巴语:请我)
- text: gbọ́ láìfọ̀rọ̀ gùn rárá.(约鲁巴语:未经询问就)
多语言预训练语言模型(mPLMs)在预训练过程中获取了宝贵且可泛化的语言信息,推动了任务特定微调的技术前沿。
迄今为止,现有语言模型仅覆盖约2000种非洲语言中的31种。我们通过开发SERENGETI模型系列来改善这一局限——这套大规模多语言模型覆盖了517种非洲语言及方言变体。我们在20个数据集上针对8项自然语言理解任务评估新模型,与覆盖4-23种非洲语言的4个mPLMs进行对比。
SERENGETI在八项任务的11个数据集中表现最优,平均F1分数达82.27。我们还进行了错误分析,探究零样本设置下语言谱系和语言学相似性的影响。本模型将公开供研究使用。
更多细节详见论文[(链接)](https://aclanthology.org/2023.findings-acl.97/)。
3. 使用指南
以下是使用Serengeti预测掩码词的示例:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("UBC-NLP/serengeti-E250", use_auth_token="XXX")
model = AutoModelForMaskedLM.from_pretrained("UBC-NLP/serengeti-E250", use_auth_token="XXX")
from transformers import pipeline
classifier = pipeline("fill-mask", model=model, tokenizer=tokenizer)
classifier("ẹ jọwọ , ẹ <mask> mi")
[{'score': 0.07887924462556839,
'token': 8418,
'token_str': 'ọmọ',
'sequence': 'ẹ jọwọ, ẹ ọmọ mi'},
{'score': 0.04658124968409538,
'token': 156595,
'token_str': 'fẹ́ràn',
'sequence': 'ẹ jọwọ, ẹ fẹ́ràn mi'},
{'score': 0.029315846040844917,
'token': 204050,
'token_str': 'gbàgbé',
'sequence': 'ẹ jọwọ, ẹ gbàgbé mi'},
{'score': 0.02790883742272854,
'token': 10730,
'token_str': 'kọ',
'sequence': 'ẹ jọwọ, ẹ kọ mi'},
{'score': 0.022904086858034134,
'token': 115382,
'token_str': 'bẹ̀rù',
'sequence': 'ẹ jọwọ, ẹ bẹ̀rù mi'}]
完整教程请参阅
4. 伦理声明
Serengeti遵循非洲中心主义NLP原则,在技术开发中优先考虑非洲人群需求。我们相信该模型不仅有助于支持语言的使用者,也将惠及人类学家和语言学家等非洲语言研究者。以下是主要应用场景与社会影响:
- 解决全球约90%语言技术资源匮乏问题,特别聚焦非洲地区。据我们所知,这是首个面向非洲语言及方言的大规模多语言预训练模型,覆盖517种语言的规模目前在非洲NLP领域居首。
- 提升非洲社群通过本土语言获取关键信息的能力,尤其惠及非其他语言熟练者,促进全球互联。
- 为多种非洲语言提供保存契机。模型包含诸多首次应用于NLP任务的语言,有望推动这些语言在多领域持续使用并激发后续技术开发。
- 通过人工校验数据集缓解偏见问题。由阿非利卡语、约鲁巴语等13种语言的母语者参与数据质量评估,并采用多领域数据确保语言使用的代表性。
- 需注意:虽然模型用途广泛,但可能被滥用。基于公开数据集开发的模型可能携带偏见。尽管我们进行了性能分析,但受限于大多数语言缺乏母语者验证,无法保证完全消除数据偏差。
支持语言
详见支持语言列表
引用
若在科研中使用本预训练模型(Serengeti)或相关资源,请引用:
@inproceedings{adebara-etal-2023-serengeti,
title = "{SERENGETI}: Massively Multilingual Language Models for {A}frica",
author = "Adebara, Ife and
Elmadany, AbdelRahim and
Abdul-Mageed, Muhammad and
Alcoba Inciarte, Alcides",
booktitle = "Findings of the Association for Computational Linguistics: ACL 2023",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.findings-acl.97",
doi = "10.18653/v1/2023.findings-acl.97",
pages = "1498--1537",
}
致谢
感谢加拿大研究主席计划(CRC)、自然科学与工程研究委员会(NSERC)、社会科学与人文研究委员会(SSHRC)、加拿大创新基金会(CFI)、加拿大数字研究联盟、UBC ARC-Sockeye、超威半导体(AMD)和谷歌的支持。本文观点仅代表作者立场。