语言:
- 古希腊语(grc)
基础模型:
- UGARIT/grc-alignment
标签:
- 标记分类
许可证: mit
推理参数:
聚合策略: "first"
示例:
- 文本: "ταῦτα εἴπας ὁ Ἀλέξανδρος παρίζει Πέρσῃ ἀνδρὶ ἄνδρα Μακεδόνα ὡς γυναῖκα τῷ λόγῳ · οἳ δέ , ἐπείτε σφέων οἱ Πέρσαι ψαύειν ἐπειρῶντο , διεργάζοντο αὐτούς ."
示例标题: "示例1"
古希腊语命名实体识别模型
预训练的古希腊语NER标注模型
数据
我们使用现有的古希腊语标注语料库进行模型训练。目前只有两个较大规模的标注数据集正在发布中:
第一个是Berti 2023制作的雅典奈乌斯《哲人宴》全文本标注,属于"数字雅典奈乌斯"项目;
第二个是Foka等人2020制作的保萨尼亚斯《希腊志》全文本标注,属于"数字周游记"项目。
此外,我们还使用了Recogito平台上学生学者标注的小型语料库:
- Kemp 2021标注的《奥德赛》
- Chiara Palladino标注的混合语料(包含伪阿波罗多洛斯《书库》和斯特拉波《地理志》选段)
- Thomas Visser制作的色诺芬《长征记》第一卷
- Rachel Milio制作的德摩斯梯尼《诉尼亚拉》
训练数据集
|
人物 |
地点 |
民族/宗教 |
其他 |
奥德赛 |
2,469 |
698 |
0 |
0 |
哲人宴 |
14,921 |
2,699 |
5,110 |
3,060 |
希腊志 |
10,205 |
8,670 |
4,972 |
0 |
其他数据集 |
3,283 |
2,040 |
1,089 |
0 |
总计 |
30,878 |
14,107 |
11,171 |
3,060 |
验证数据集
|
人物 |
地点 |
民族/宗教 |
其他 |
色诺芬 |
1,190 |
796 |
857 |
0 |
结果
类别 |
指标 |
测试集 |
验证集 |
地点 |
精确率 |
83.33% |
88.66% |
|
召回率 |
81.27% |
88.94% |
|
F1值 |
82.29% |
88.80% |
其他 |
精确率 |
83.25% |
0 |
|
召回率 |
81.21% |
0 |
|
F1值 |
82.22% |
0 |
民族 |
精确率 |
88.71% |
94.76% |
|
召回率 |
90.76% |
94.50% |
|
F1值 |
89.73% |
94.63% |
人物 |
精确率 |
91.72% |
94.22% |
|
召回率 |
94.42% |
96.06% |
|
F1值 |
93.05% |
95.13% |
总体 |
精确率 |
88.83% |
92.91% |
|
召回率 |
89.99% |
93.72% |
|
F1值 |
89.41% |
93.32% |
|
准确率 |
97.50% |
98.87% |
使用方法
此Colab笔记本包含使用模型的必要代码。
from transformers import pipeline
ner = pipeline('ner', model="UGARIT/grc-ner-xlmr", aggregation_strategy = 'first')
ner("ταῦτα εἴπας ὁ Ἀλέξανδρος παρίζει Πέρσῃ ἀνδρὶ ἄνδρα Μακεδόνα ὡς γυναῖκα τῷ λόγῳ · οἳ δέ , ἐπείτε σφέων οἱ Πέρσαι ψαύειν ἐπειρῶντο , διεργάζοντο αὐτούς .")
输出结果
[{'entity_group': 'PER',
'score': 0.9999428,
'word': '',
'start': 13,
'end': 14},
{'entity_group': 'PER',
'score': 0.99994195,
'word': 'Ἀλέξανδρος',
'start': 14,
'end': 24},
{'entity_group': 'NORP',
'score': 0.9087087,
'word': 'Πέρσῃ',
'start': 32,
'end': 38},
{'entity_group': 'NORP',
'score': 0.97572577,
'word': 'Μακεδόνα',
'start': 50,
'end': 59},
{'entity_group': 'NORP',
'score': 0.9993412,
'word': 'Πέρσαι',
'start': 104,
'end': 111}]
引用文献:
@inproceedings{palladino-yousef-2024-development,
title = "古希腊语稳健NER模型与命名实体标签集的开发",
author = "Palladino, Chiara 和 Yousef, Tariq",
editor = "Sprugnoli, Rachele 和 Passarotti, Marco",
booktitle = "第三届历史与古代语言技术研讨会论文集(LT4HALA) @ LREC-COLING-2024",
month = "5月",
year = "2024",
address = "意大利都灵",
publisher = "ELRA和ICCL",
url = "https://aclanthology.org/2024.lt4hala-1.11",
pages = "89--97",
abstract = "本文提出了一种基于Transformer的古希腊语命名实体识别与分类模型开发与评估的新方法。我们通过将潜在模糊的实体类型统一为协调的类别集,使用标注数据集训练了两个模型。然后使用域外文本测试其性能,模拟真实使用场景。两种模型在此条件下均表现优异,其中多语言模型略优于单语言模型。最后我们强调当前限制主要来自高质量标注语料稀缺及古代语言缺乏统一的标注策略。",
}