Hugging Face的标识
语言支持:
- 豪萨语(ha)
- 伊博语(ig)
- 卢旺达语(rw)
- 卢干达语(lg)
- 卢奥语(luo)
- 尼日利亚皮钦语(pcm)
- 斯瓦希里语(sw)
- 沃洛夫语(wo)
- 约鲁巴语(yo)
- 多语言(multilingual)
数据集:
bert-base-multilingual-cased-masakhaner
模型描述
distilbert-base-multilingual-cased-masakhaner是首个基于微调BERT基础模型、面向9种非洲语言(豪萨语、伊博语、卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语)的命名实体识别模型。该模型经过训练可识别四类实体:日期时间(DATE)、地点(LOC)、组织(ORG)和人物(PER)。
具体而言,本模型是在非洲语言数据集集合上微调的distilbert-base-multilingual-cased模型,数据来源于Masakhane项目的MasakhaNER数据集。
使用场景与限制
使用方法
可通过Transformers的pipeline进行NER任务:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
局限性
由于训练数据仅包含特定时间段的新闻标注实体,该模型在不同领域的泛化能力可能受限。
训练数据
模型在9种非洲语言NER数据集(豪萨语、伊博语、卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语)上微调,数据来自Masakhane的MasakhaNER项目。
训练数据区分实体的起始与延续部分,当出现同类型实体连续时,模型能识别第二个实体的起始位置。每个标记将被分类为以下类别之一:
缩写 |
说明 |
O |
非命名实体 |
B-DATE |
紧接前一个DATE实体的起始 |
I-DATE |
DATE实体 |
B-PER |
紧接前一个人名的起始 |
I-PER |
人名 |
B-ORG |
紧接前一个组织的起始 |
I-ORG |
组织 |
B-LOC |
紧接前一个地点的起始 |
I-LOC |
地点 |
训练过程
本模型在NVIDIA V100 GPU上训练,采用MasakhaNER原始论文推荐的超参数,该论文基于MasakhaNER语料库进行训练评估。
测试集F1分数
语言 |
F1值 |
豪萨语 |
88.88 |
伊博语 |
84.87 |
卢旺达语 |
74.19 |
卢干达语 |
78.43 |
卢奥语 |
73.32 |
尼日利亚皮钦语 |
87.98 |
斯瓦希里语 |
86.20 |
沃洛夫语 |
64.67 |
约鲁巴语 |
78.10 |
文献引用信息
@article{adelani21tacl,
title = {Masakha{NER}: 非洲语言命名实体识别},
author = {David Ifeoluwa Adelani等合作者},
journal = {计算语言学协会汇刊(TACL)},
month = {},
url = {https://arxiv.org/abs/2103.11811},
year = {2021}
}