许可证: afl-3.0
语言:
- 阿姆哈拉语 (am)
- 班巴拉语 (bm)
- 格马拉语 (obj)
- 埃维语 (ee)
- 丰语 (fon)
- 豪萨语 (ha)
- 伊博语 (ig)
- 卢旺达语 (rw)
- 卢干达语 (lg)
- 卢奥语 (luo)
- 莫西语 (mos)
- 奇切瓦语 (ny)
- 尼日利亚皮钦语 (pcm)
- 绍纳语 (sn)
- 斯瓦希里语 (sw)
- 茨瓦纳语 (tn)
- 契维语 (tw)
- 沃洛夫语 (wo)
- 科萨语 (xh)
- 约鲁巴语 (yo)
- 祖鲁语 (zu)
- 多语言 (multilingual)
数据集:
masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0
模型描述
masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0 是一个针对21种非洲语言的**命名实体识别(NER)**模型。具体而言,该模型是基于Davlan/afro-xlmr-large模型,在MasakhaNER数据集的两个版本(即MasakhaNER 1.0和MasakhaNER 2.0)的非洲语言数据集聚合上进行微调的。覆盖的语言包括:
- 阿姆哈拉语 (Amharic)
- 班巴拉语 (bam)
- 格马拉语 (bbj)
- 埃维语 (ewe)
- 丰语 (fon)
- 豪萨语 (hau)
- 伊博语 (ibo)
- 卢旺达语 (kin)
- 卢干达语 (lug)
- 卢奥语 (luo)
- 莫西语 (mos)
- 奇切瓦语 (nya)
- 尼日利亚皮钦语
- 绍纳语 (sna)
- 斯瓦希里语 (swa)
- 茨瓦纳语 (tsn)
- 契维语 (twi)
- 沃洛夫语 (wol)
- 科萨语 (xho)
- 约鲁巴语 (yor)
- 祖鲁语 (zul)
该模型经过训练,能够识别四种类型的实体:日期和时间(DATE)、地点(LOC)、组织(ORG)和人名(PER)。
预期用途与限制
使用方法
您可以使用Transformers的pipeline进行NER任务。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0")
model = AutoModelForTokenClassification.from_pretrained("masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
在MasakhaNER上的评估结果(F分数)
模型在MasakhaNER 1.0和MasakhaNER 2.0测试集上的评估结果
语言 |
MasakhaNER 1.0 |
MasakhaNER 2.0 |
阿姆哈拉语 |
80.5 |
|
班巴拉语 |
|
83.1 |
格马拉语 |
|
76.6 |
埃维语 |
|
89.6 |
丰语 |
|
83.8 |
豪萨语 |
90.3 |
87.5 |
伊博语 |
89.5 |
93.5 |
卢旺达语 |
82.0 |
87.6 |
卢干达语 |
87.1 |
89.7 |
卢奥语 |
80.8 |
82.5 |
莫西语 |
|
75.5 |
奇切瓦语 |
|
92.7 |
尼日利亚皮钦语 |
91.1 |
90.9 |
绍纳语 |
|
96.5 |
斯瓦希里语 |
88.5 |
93.4 |
茨瓦纳语 |
|
90.3 |
契维语 |
|
81.3 |
沃洛夫语 |
72.7 |
87.3 |
科萨语 |
|
90.0 |
约鲁巴语 |
88.1 |
90.5 |
祖鲁语 |
|
91.3 |
平均 |
85.1 |
87.7 |
限制与偏差
该模型受限于其训练数据集,即特定时间段内带有实体标注的新闻文章。这可能无法很好地泛化到不同领域的所有用例中。
训练数据
该模型在MasakhaNER 1.0和MasakhaNER 2.0数据集的聚合上进行了微调。
训练数据集区分了实体的开始和延续,以便在连续出现相同类型的实体时,模型可以输出第二个实体的开始位置。与数据集中一样,每个标记将被分类为以下类别之一:
缩写 |
描述 |
O |
非命名实体 |
B-DATE |
紧接另一个DATE实体后的DATE实体的开始 |
I-DATE |
DATE实体 |
B-PER |
紧接另一个人名后的人名的开始 |
I-PER |
人名 |
B-ORG |
紧接另一个组织后的组织的开始 |
I-ORG |
组织 |
B-LOC |
紧接另一个地点后的地点的开始 |
I-LOC |
地点 |
训练过程
该模型在单个NVIDIA V100 GPU上训练,使用了原始MasakhaNER论文中推荐的超参数,该论文在MasakhaNER语料库上训练并评估了模型。
BibTeX条目及引用信息
@article{Adelani2022MasakhaNER2A,
title={MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition},
author={David Ifeoluwa Adelani and Graham Neubig and Sebastian Ruder and Shruti Rijhwani and Michael Beukman and Chester Palen-Michel and Constantine Lignos and Jesujoba Oluwadara Alabi and Shamsuddeen Hassan Muhammad and Peter Nabende and Cheikh M. Bamba Dione and Andiswa Bukula and Rooweither Mabuya and Bonaventure F. P. Dossou and Blessing K. Sibanda and Happy Buzaaba and Jonathan Mukiibi and Godson Kalipe and Derguene Mbaye and Amelia Taylor and Fatoumata Kabore and Chris C. Emezue and Anuoluwapo Aremu and Perez Ogayo and Catherine W. Gitau and Edwin Munkoh-Buabeng and Victoire Memdjokam Koagne and Allahsera Auguste Tapo and Tebogo Macucwa and Vukosi Marivate and Elvis Mboning and Tajuddeen R. Gwadabe and Tosin P. Adewumi and Orevaoghene Ahia and Joyce Nakatumba-Nabende and Neo L. Mokono and Ignatius M Ezeani and Chiamaka Ijeoma Chukwuneke and Mofetoluwa Adeyemi and Gilles Hacheme and Idris Abdulmumin and Odunayo Ogundepo and Oreen Yousuf and Tatiana Moteu Ngoli and Dietrich Klakow},
journal={ArXiv},
year={2022},
volume={abs/2210.12391}
}