许可证:欧盟公共许可证1.1版
数据集:
- ehri-ner/ehri-ner-all
支持语言:
- 捷克语
- 德语
- 英语
- 法语
- 匈牙利语
- 荷兰语
- 波兰语
- 斯洛伐克语
- 意第绪语
评估指标:
- 名称:F1值
类型:F1
数值:81.5
任务标签:词元分类
标签:
- 大屠杀
- EHRI
基础模型:FacebookAI/xlm-roberta-large
ehri-ner/xlm-roberta-large-ehri-ner-all模型卡
欧洲大屠杀研究基础设施(EHRI)旨在通过其服务使分散的大屠杀资料信息可访问且相互关联,从而支持大屠杀研究。开发一个能够在大屠杀证词或档案描述等文本中检测命名实体的工具,将更容易将更多材料与特定领域受控词汇表中的相关标识符链接起来,从而在语义上丰富这些材料并提高其可发现性。xlm-roberta-large-ehri-ner-all模型基于XLM-RoBERTa(XLM-R)微调,用于大屠杀相关的命名实体识别(NER),使用了EHRI-NER数据集。该数据集是一个多语言(捷克语、德语、英语、法语、匈牙利语、荷兰语、波兰语、斯洛伐克语、意第绪语)的大屠杀相关文本NER数据集。EHRI-NER数据集通过聚合EHRI在线版本中所有标注文档并将其转换为适合训练NER模型的格式构建而成。实验结果表明,尽管我们的数据集相对较小,但在多语言实验设置中,XLM-R在多语言标注上微调后的总体F1得分为81.5%。
模型描述
- 开发者: Dermentzi, M. 和 Scheithauer, H.
- 资助方: 欧洲委员会H2020-INFRAIA-2018–2020计划,资助协议ID 871111,DOI 10.3030/871111。
- 支持语言(NLP): 模型在捷克语、德语、英语、法语、匈牙利语、荷兰语、波兰语、斯洛伐克语、意第绪语数据上进行了微调,但由于使用了具有跨语言迁移能力的多语言基础模型(XLM-R),它可能适用于更多语言。
- 许可证: EUPL-1.2
- 微调自模型: FacebookAI/xlm-roberta-large
用途
该模型是为EHRI-3项目的研究目的而开发的。具体目标是确定是否可以通过单一模型训练来识别大屠杀相关文本中不同文档类型和语言的实体。实验结果表明,尽管数据集相对较小,但在多语言实验设置中,XLM-R在大屠杀相关多语言标注上微调后的总体F1得分为81.5%。我们认为这一分数足够高,可以考虑下一步部署该模型,即从EHRI社区获取更多反馈。一旦我们拥有一个稳定的模型并满足EHRI利益相关者的需求,该模型及其潜在后续版本将作为EHRI编辑流程的一部分使用。通过将文本输入支持该模型的工具,文本中的潜在命名实体将自动预标注,从而帮助目标用户(即研究人员和专业档案管理员)更快地检测它们,并将其链接到EHRI自定义受控词汇表和权威集中的相关实体。这有可能促进EHRI门户中描述的元数据丰富性并增强其可发现性。它还将使EHRI更容易开发新的在线版本,并为EHRI网络中的档案管理员和研究人员提供新的方式来组织、分析和呈现他们的材料和研究数据,否则这些工作将需要大量手动操作。
局限性
用于微调该模型的数据集来自一系列手动标注的数字学术版本,即EHRI在线版本。这些版本的最初目的并非提供用于训练NER模型的数据集,但我们认为它们仍然构成了适合用于此目的的高质量资源。然而,用户应注意,我们的数据集重新利用了并非为此目的构建的资源。
微调后的模型偶尔会将实体错误分类为非实体词元,其中I-GHETTO是最常被混淆的实体。微调后的模型在提取多词元实体(如I-CAMP、I-LOC和I-ORG)时偶尔会遇到挑战,这些实体有时会被误认为是实体的开头。此外,它倾向于将B-GHETTO和B-CAMP错误分类为B-LOC,这并不令人意外,因为它们在语义上非常接近。
该模型旨在作为EHRI相关编辑和发布流程的一部分使用,可能不适合其他用户/组织的用途。
建议
如需更多信息,我们鼓励潜在用户阅读与该模型相关的论文:
Dermentzi, M., & Scheithauer, H. (2024, 5月). 《重新利用大屠杀相关数字学术版本开发多语言领域特定命名实体识别工具》. LREC-COLING 2024 - 计算语言学、语言资源与评估联合国际会议. HTRes@LREC-COLING 2024, 意大利都灵. https://hal.science/hal-04547222
引用
BibTeX:
@inproceedings{dermentzi_repurposing_2024,
address = {Torino, Italy},
title = {Repurposing {Holocaust}-{Related} {Digital} {Scholarly} {Editions} to {Develop} {Multilingual} {Domain}-{Specific} {Named} {Entity} {Recognition} {Tools}},
url = {https://hal.science/hal-04547222},
abstract = {The European Holocaust Research Infrastructure (EHRI) aims to support Holocaust research by making information about dispersed Holocaust material accessible and interconnected through its services. Creating a tool capable of detecting named entities in texts such as Holocaust testimonies or archival descriptions would make it easier to link more material with relevant identifiers in domain-specific controlled vocabularies, semantically enriching it, and making it more discoverable. With this paper, we release EHRI-NER, a multilingual dataset (Czech, German, English, French, Hungarian, Dutch, Polish, Slovak, Yiddish) for Named Entity Recognition (NER) in Holocaust-related texts. EHRI-NER is built by aggregating all the annotated documents in the EHRI Online Editions and converting them to a format suitable for training NER models. We leverage this dataset to fine-tune the multilingual Transformer-based language model XLM-RoBERTa (XLM-R) to determine whether a single model can be trained to recognize entities across different document types and languages. The results of our experiments show that despite our relatively small dataset, in a multilingual experiment setup, the overall F1 score achieved by XLM-R fine-tuned on multilingual annotations is 81.5{\textbackslash}%. We argue that this score is sufficiently high to consider the next steps towards deploying this model.},
urldate = {2024-04-29},
booktitle = {{LREC}-{COLING} 2024 - {Joint} {International} {Conference} on {Computational} {Linguistics}, {Language} {Resources} and {Evaluation}},
publisher = {ELRA Language Resources Association (ELRA); International Committee on Computational Linguistics (ICCL)},
author = {Dermentzi, Maria and Scheithauer, Hugo},
month = may,
year = {2024},
keywords = {Digital Editions, Holocaust Testimonies, Multilingual, Named Entity Recognition, Transfer Learning, Transformers},
}
APA:
Dermentzi, M., & Scheithauer, H. (2024, 5月). 《重新利用大屠杀相关数字学术版本开发多语言领域特定命名实体识别工具》. LREC-COLING 2024 - 计算语言学、语言资源与评估联合国际会议. HTRes@LREC-COLING 2024, 意大利都灵. https://hal.science/hal-04547222