注释创建者:
语言:
- 阿姆哈拉语
- 奥罗莫语
- 林加拉语
- 豪萨语
- 伊博语
- 卢旺达语
- 卢干达语
- 卢奥语
- 尼日利亚皮钦语
- 斯瓦希里语
- 沃洛夫语
- 约鲁巴语
- 班巴拉语
- 丰语
- 埃维语
- 莫西语
- 奇切瓦语
- 绍纳语
- 茨瓦纳语
- 契维语
- 科萨语
- 祖鲁语
语言创建者:
许可协议:
多语言性:
美化名称: afrolm-dataset
规模类别:
源数据集:
标签:
- 非洲语言模型
- 主动学习
- 语言建模
- 研究论文
- 自然语言处理
- 自主动学习
任务类别:
任务ID:
AfroLM:基于自主动学习的23种非洲语言多语言预训练语言模型
本仓库包含我们论文《AfroLM:基于自主动学习的23种非洲语言多语言预训练语言模型》的模型代码,该论文将发表于2022年EMNLP第三届"简洁高效自然语言处理"会议。
自主动学习框架

覆盖语言
AfroLM在23种非洲语言上从头预训练:阿姆哈拉语、奥罗莫语、班巴拉语、丰语、埃维语、豪萨语、伊博语、卢旺达语、林加拉语、卢干达语、卢奥语、莫西语、奇切瓦语、尼日利亚皮钦语、绍纳语、斯瓦希里语、茨瓦纳语、契维语、沃洛夫语、科萨语、约鲁巴语和祖鲁语。
评估结果
AfroLM在MasakhaNER1.0(10种非洲语言)和MasakhaNER2.0(21种非洲语言)数据集上进行了命名实体识别、文本分类和情感分析评估。其表现优于AfriBERTa、mBERT和XLMR-base模型,与AfroXLMR表现相当。值得注意的是,AfroLM仅使用竞争对手14%以下的预训练数据就实现了这一效果。下表展示了各模型在不同数据集上的平均F1分数表现,详细语言级表现请参阅论文。
模型 |
MasakhaNER |
MasakhaNER2.0* |
文本分类(约鲁巴语/豪萨语) |
情感分析(YOSM) |
跨域情感分析(推特->YOSM) |
AfroLM-Large |
80.13 |
83.26 |
82.90/91.00 |
85.40 |
68.70 |
AfriBERTa |
79.10 |
81.31 |
83.22/90.86 |
82.70 |
65.90 |
mBERT |
71.55 |
80.68 |
--- |
--- |
--- |
XLMR-base |
79.16 |
83.09 |
--- |
--- |
--- |
AfroXLMR-base |
81.90 |
84.55 |
--- |
--- |
--- |
- (*)评估针对数据集中新增的11种语言
- 加粗数字代表使用最小预训练数据的模型表现
预训练模型与数据集
模型: AfroLM-Large
数据集: AfroLM数据集
HuggingFace使用示例
from transformers import XLMRobertaModel, XLMRobertaTokenizer
model = XLMRobertaModel.from_pretrained("bonadossou/afrolm_active_learning")
tokenizer = XLMRobertaTokenizer.from_pretrained("bonadossou/afrolm_active_learning")
tokenizer.model_max_length = 256
注意:Autotokenizer
类可能无法正确加载本分词器,建议直接使用XLMRobertaTokenizer
类。根据任务类型选择相应模型模式,详见XLMRoberta文档
复现步骤
- 训练网络:运行
python active_learning.py
,也可封装为bash脚本
- 评估:
- 命名实体识别:
bash ner_experiments.sh
- 文本分类与情感分析:
bash text_classification_all.sh
引用
@inproceedings{dossou-etal-2022-afrolm,
title = "{A}fro{LM}: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 {A}frican Languages",
author = "Dossou, Bonaventure F. P. and
Tonja, Atnafu Lambebo and
Yousuf, Oreen and
Osei, Salomey and
Oppong, Abigail and
Shode, Iyanuoluwa and
Awoyomi, Oluwabusayo Olufunke and
Emezue, Chris",
booktitle = "Proceedings of The Third Workshop on Simple and Efficient Natural Language Processing (SustaiNLP)",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates (Hybrid)",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.sustainlp-1.11",
pages = "52--64"}
会议正式出版后将更新引用信息。如果喜欢我们的工作,请为项目点赞。
联系我们
如有疑问,请提交issue,我们将尽快回复。