语言: et
许可证: cc-by-4.0
小部件:
- 文本: "Eesti President on Alar Karis."
基础模型: tartuNLP/EstBERT
数据集:
基于EstBERT的爱沙尼亚语命名实体识别模型
该模型是在爱沙尼亚语NER数据集上对tartuNLP/EstBERT进行微调的版本,由塔尔图大学计算机科学研究所的NLP研究小组tartuNLP训练完成。
在测试集上取得如下结果:
- 损失值: 0.3565
- 精确率: 0.7612
- 召回率: 0.7744
- F1分数: 0.7678
- 准确率: 0.9672
实体级别表现如下:
|
精确率 |
召回率 |
F1值 |
数量 |
日期 |
0.7278 |
0.7258 |
0.7268 |
372 |
事件 |
0.3721 |
0.5714 |
0.4507 |
28 |
地理政治实体 |
0.8679 |
0.8369 |
0.8521 |
840 |
地点 |
0.6545 |
0.4832 |
0.5560 |
149 |
货币 |
0.6625 |
0.6023 |
0.6310 |
88 |
组织 |
0.6761 |
0.7267 |
0.7005 |
589 |
人物 |
0.8255 |
0.9068 |
0.8642 |
751 |
百分比 |
1.0 |
0.9589 |
0.9790 |
73 |
产品 |
0.6030 |
0.5430 |
0.5714 |
221 |
时间 |
0.5682 |
0.5556 |
0.5618 |
45 |
头衔 |
0.7 |
0.8063 |
0.7494 |
191 |
使用方法
可通过Transformers的NER管道使用本模型。由于模型偶尔会将子词标记标注为实体,可能需要对结果进行后处理。
from transformers import BertTokenizer, BertForTokenClassification
from transformers import pipeline
tokenizer = BertTokenizer.from_pretrained('tartuNLP/EstBERT_NER')
bertner = BertForTokenClassification.from_pretrained('tartuNLP/EstBERT_NER')
nlp = pipeline("ner", model=bertner, tokenizer=tokenizer)
text = "Kaia Kanepi (WTA 57.) langes USA-s Charlestonis toimuval WTA 500 kategooria tenniseturniiril konkurentsist kaheksandikfinaalis, kaotades poolatarile Magda Linette'ile (WTA 64.) 3 : 6, 6 : 4, 2 : 6."
ner_results = nlp(text)
tokens=tokenizer(text)
tokens=tokenizer.convert_ids_to_tokens(tokens['input_ids'])
print(f'分词结果: {tokens}')
print(f'NER模型输出:{ner_results}')
用途与限制
本模型可用于从爱沙尼亚语文本中识别命名实体。该模型可自由使用,但塔尔图NLP不保证模型对任何用途的有效性,也不对模型生成的任何结果负责。
训练与评估数据
模型基于两个爱沙尼亚NER数据集训练:
两个数据集采用相同的标注方案,训练时进行了合并。
训练过程
超参数设置
- 学习率: 1e-05
- 训练批大小: 16
- 评估批大小: 16
- 随机种子: 1024
- 优化器: Adam (β1=0.9, β2=0.98, ε=1e-06)
- 学习率调度器: 多项式
- 最大训练轮次: 150
- 早停阈值: 20轮
- 早停容忍度: 0.0001
- 混合精度训练: 原生AMP
训练结果
最终模型保存在第53轮(加粗显示),此时开发集上的整体F1值达到最高。
[注:此处省略了详细的训练过程表格,因篇幅过长]
框架版本
- Transformers 4.16.2
- Pytorch 1.10.2+cu113
- Datasets 1.18.3
- Tokenizers 0.11.0
引用信息
@misc{tanvir2020estbert,
title={EstBERT: A Pretrained Language-Specific BERT for Estonian},
author={Hasan Tanvir and Claudia Kittask and Kairit Sirts},
year={2020},
eprint={2011.04784},
archivePrefix={arXiv},
primaryClass={cs.CL}
}