XLM-RoBERTa开源命名实体识别模型 - 精准识别斯瓦希里语实体信息

首页

Xlm Roberta Base Finetuned Luganda Finetuned Ner Swahili

由 mbeukman 开发

这是一个基于XLM-RoBERTa模型，在马萨卡NER数据集斯瓦希里语部分进行微调的命名实体识别模型。

序列标注

Transformers

其他#非洲语言NER #跨语言迁移 #新闻实体识别

下载量 17

发布时间 : 3/2/2022

模型简介

该模型专门用于斯瓦希里语的命名实体识别任务，能够识别文本中的日期、地点、组织和人名等实体。

模型特点

跨语言迁移学习

基于卢干达语微调的XLM-RoBERTa模型进一步微调于斯瓦希里语NER任务

高性能

在斯瓦希里语NER任务上达到88.93的F1分数

多类别识别

能够识别日期、地点、组织和人名等多种实体类型

模型能力

斯瓦希里语文本分析

命名实体识别

多类别实体标注

使用案例

NLP研究

可解释性研究

研究模型在非洲语言上的表现和可解释性

迁移学习研究

探索跨语言迁移学习的效果

信息提取

新闻分析

从斯瓦希里语新闻中提取关键实体信息

🚀 XLM-RoBERTa基础模型微调卢干达语后再微调斯瓦希里语命名实体识别模型

这是一个标记分类（具体为命名实体识别，NER）模型，它在MasakhaNER数据集（特别是斯瓦希里语部分）上对xlm-roberta-base-finetuned-luganda进行了微调。

更多信息以及其他类似模型可在主GitHub仓库中找到。

✨ 主要特性

基于Transformer架构，在MasakhaNER数据集上进行微调。
该数据集包含10种不同非洲语言的新闻文章，用于命名实体识别。
模型经过50个训练周期的微调，最大序列长度为200，批量大小为32，学习率为5e - 5。
此过程重复了5次（使用不同的随机种子），上传的这个模型在这5个种子的测试集上聚合F1分数表现最佳。

📦 安装指南

文档中未提及安装步骤，可参考相关依赖库的安装说明，如transformers库。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-luganda-finetuned-ner-swahili'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Wizara ya afya ya Tanzania imeripoti Jumatatu kuwa , watu takriban 14 zaidi wamepata maambukizi ya Covid - 19 ."

ner_results = nlp(example)
print(ner_results)

📚 详细文档

关于模型

此模型基于Transformer架构，在MasakhaNER数据集上进行微调。MasakhaNER是一个命名实体识别数据集，主要包含10种不同非洲语言的新闻文章。

模型由Michael Beukman在约翰内斯堡的威特沃特斯兰德大学做项目时进行微调。截至2021年11月20日，这是版本1。该模型遵循Apache许可证，版本2.0。

联系与更多信息

有关模型的更多信息，包括训练脚本、详细结果和其他资源，可访问主GitHub仓库。你可以通过在该仓库中提交问题与作者联系。

训练资源

为了保证透明度并报告所使用的资源，这里列出了训练过程所需的时间以及复现所需的最低资源。在NER数据集上微调每个模型需要10到30分钟，并且是在NVIDIA RTX3090 GPU上进行的。要使用32的批量大小，至少需要14GB的GPU内存，不过当使用批量大小为1时，大约6.5GB的显存也可以运行这些模型。

数据

训练、评估和测试数据集直接取自MasakhaNER的GitHub仓库，几乎没有进行预处理，因为原始数据集已经具有很高的质量。

使用此数据的动机是，它是“第一个用于十种非洲语言的大型、公开可用、高质量的命名实体识别（NER）数据集”（来源）。高质量的数据以及引入该数据集的论文所做的基础工作，是选择该数据集的更多原因。在评估时，使用了专门的测试集，该测试集与训练数据的分布相同，因此该模型可能无法推广到其他分布，需要进一步测试来研究这一点。数据的确切分布在此处有详细介绍。

预期用途

此模型旨在用于自然语言处理（NLP）研究，例如可解释性或迁移学习。不支持在生产环境中使用此模型，因为其泛化能力和性能有限。特别是，它不适合用于任何可能影响人们的重要下游任务，因为模型的局限性可能会造成危害，具体如下所述。

局限性

此模型仅在一个（相对较小的）数据集上进行训练，涵盖一个任务（NER）、一个领域（新闻文章）以及特定的时间段。结果可能无法泛化，如果用于其他任务，模型可能表现不佳，或者表现出不公平/有偏差的情况。尽管该项目的目的是研究迁移学习，但模型在未训练的语言上的性能确实会受到影响。

由于此模型以xlm - roberta - base为起点（可能在特定语言上进行了领域自适应微调），因此该模型的局限性也适用于此。这些局限性可能包括偏向于大部分训练数据的主流观点、缺乏基础以及在其他语言上的结果不佳（可能是由于训练数据不平衡）。

正如Adelani等人（2021）所示，模型通常在处理长度超过3个单词的实体以及训练数据中未包含的实体时存在困难。这可能会导致模型偏向于不识别例如包含多个单词的人名，从而可能导致结果出现偏差。同样，不常见的名称（可能由于不同语言的原因未在训练数据中出现）也会较少被预测。

此外，此模型尚未在实践中进行验证，如果在未验证其是否符合预期的情况下使用，可能会出现其他更微妙的问题。

隐私与伦理考量

数据仅来自公开的新闻来源，可用数据应涵盖公众人物以及同意被报道的人。更多详细信息请参阅原始的MasakhaNER论文。

在微调此模型期间，未进行明确的伦理考量或调整。

指标

基于语言自适应的模型在性能上（大部分）优于以xlm - roberta - base为起点的模型。主要指标是所有NER类别的聚合F1分数。

这些指标是在MasakhaNER的测试集上得出的，因此数据分布与训练集相似，这些结果并不能直接表明这些模型的泛化能力。

当从不同的种子开始训练时，迁移结果存在很大差异（测试了5个不同的种子），这表明迁移的微调过程可能不稳定。

选择这些指标是为了与先前的工作保持一致，并便于研究。其他指标可能更适合其他目的。

注意事项和建议

总体而言，此模型在“日期”类别上的表现比其他类别差，因此如果日期是关键因素，则可能需要考虑并解决这个问题，例如收集和标注更多数据。

模型结构

以下是此特定模型与我们训练的其他模型的一些性能细节对比。

所有这些指标都是在测试集上计算的，并且选择了能给出最佳整体F1分数的种子。前三列结果是所有类别的平均值，后四列按类别提供性能指标。

此模型可以为标记预测以下标签（来源）：

缩写	描述
O	命名实体之外
B - DATE	紧接着另一个日期实体的日期实体的开始
I - DATE	日期实体
B - PER	紧接着另一个人名的人名的开始
I - PER	人名
B - ORG	紧接着另一个组织的组织的开始
I - ORG	组织
B - LOC	紧接着另一个地点的地点的开始
I - LOC	地点

模型名称	起始点	评估/微调语言	F1	精确率	召回率	F1（日期）	F1（地点）	F1（组织）	F1（人名）
[xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili)（此模型）	[lug](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luganda)	斯瓦希里语	88.93	87.64	90.25	83.00	92.00	79.00	95.00
[xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili)	[hau](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - hausa)	斯瓦希里语	88.36	86.95	89.82	86.00	91.00	77.00	94.00
[xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili)	[ibo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - igbo)	斯瓦希里语	87.75	86.55	88.97	85.00	92.00	77.00	91.00
[xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili)	[kin](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - kinyarwanda)	斯瓦希里语	87.26	85.15	89.48	83.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - luo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luo - finetuned - ner - swahili)	[luo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luo)	斯瓦希里语	87.93	86.91	88.97	83.00	91.00	76.00	94.00
[xlm - roberta - base - finetuned - naija - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - swahili)	[pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija)	斯瓦希里语	87.26	85.15	89.48	83.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili)	[swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili)	斯瓦希里语	90.36	88.59	92.20	86.00	93.00	79.00	96.00
[xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili)	[wol](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - wolof)	斯瓦希里语	87.80	86.50	89.14	86.00	90.00	78.00	93.00
[xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili)	[yor](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - yoruba)	斯瓦希里语	87.73	86.67	88.80	85.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - swahili)	[base](https://huggingface.co/xlm - roberta - base)	斯瓦希里语	88.71	86.84	90.67	83.00	91.00	79.00	95.00