语言:
- 丹麦语
- 挪威语
- 书面挪威语
- 新挪威语
- 瑞典语
- 法罗语
- 冰岛语
许可证: MIT
数据集:
- 丹麦语命名实体识别数据集(DaNE)
- 挪威语命名实体识别数据集(NorNE)
- 维基百科标注数据集(WikiANN)
- 瑞典语语料库(SUC 3.0)
模型索引:
- 名称: nbailab-base-ner-scandi
结果: []
示例输入:
- 文本: "汉斯是哥本哈根大学的教授,他是个地道的哥本哈根人。他的猫,也就是汉斯的猫丽莎,超级可爱。他在Netto超市特价买了幅《蒙娜丽莎》送给他的猫,现在这幅《蒙娜丽莎》成了丽莎最珍爱的财产。汉斯的兄弟彼得和汉斯决定要去参观圣彼得大教堂。但现在他们都感染了新冠病毒。"
推理参数:
聚合策略: "first"
ScandiNER - 斯堪的纳维亚语言命名实体识别模型
点击此处查看模型演示
本模型是基于NbAiLab/nb-bert-base微调而成的命名实体识别模型,适用于丹麦语、挪威语(包括书面挪威语和新挪威语)、瑞典语、冰岛语和法罗语。模型在DaNE、NorNE、SUC 3.0以及WikiANN数据集的冰岛语和法罗语部分上进行了联合训练。由于预训练模型也包含英语数据,因此该模型在英语句子上的表现也相当不错。
模型可识别以下四类实体:
标签 |
名称 |
描述 |
PER |
人物 |
人名(如Birgitte和Mohammed) |
LOC |
地点 |
地名(如Tyskland和Djurgården) |
ORG |
组织 |
机构名称(如Bunnpris和Landsbankinn) |
MISC |
其他 |
其他类型的命名实体(如Ūjķnustu pund和Mona Lisa) |
快速开始
您可以通过以下方式在脚本中使用本模型:
>>> from transformers import pipeline
>>> import pandas as pd
>>> ner = pipeline(task='ner',
... model='saattrupdan/nbailab-base-ner-scandi',
... aggregation_strategy='first')
>>> result = ner('Borghild kjøper seg inn i Bunnpris')
>>> pd.DataFrame.from_records(result)
实体类别 置信度 词语 起始位置 结束位置
0 PER 0.981257 Borghild 0 8
1 ORG 0.974099 Bunnpris 26 34
性能表现
下表展示了模型在斯堪的纳维亚各语言NER测试集上的Micro-F1值,与当前最优模型对比。所有模型均在测试集及其9个自助采样版本上评估,表中显示平均值及95%置信区间:
模型ID |
DaNE |
NorNE-NB |
NorNE-NN |
SUC 3.0 |
WikiANN-IS |
WikiANN-FO |
平均 |
saattrupdan/nbailab-base-ner-scandi |
87.44 ± 0.81 |
91.06 ± 0.26 |
90.42 ± 0.61 |
88.37 ± 0.17 |
88.61 ± 0.41 |
90.22 ± 0.46 |
89.08 ± 0.46 |
chcaa/da_dacy_large_trf |
83.61 ± 1.18 |
78.90 ± 0.49 |
72.62 ± 0.58 |
53.35 ± 0.17 |
50.57 ± 0.46 |
51.72 ± 0.52 |
63.00 ± 0.57 |
RecordedFuture/Swedish-NER |
64.09 ± 0.97 |
61.74 ± 0.50 |
56.67 ± 0.79 |
66.60 ± 0.27 |
34.54 ± 0.73 |
42.16 ± 0.83 |
53.32 ± 0.69 |
除高准确率外,本模型在体积和速度上也显著优于先前最优模型:
模型ID |
处理速度(样本/秒) |
模型大小 |
saattrupdan/nbailab-base-ner-scandi |
4.16 ± 0.18 |
676 MB |
chcaa/da_dacy_large_trf |
0.65 ± 0.01 |
2,090 MB |
训练过程
训练超参数
训练使用以下超参数:
- 学习率:2e-05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:32
- 优化器:Adam(betas=(0.9,0.999), epsilon=1e-08
- 学习率调度器类型:线性
- 学习率预热步数:90135.90000000001
- 训练轮次:1000
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
Micro F1 |
不含Misc的Micro F1 |
0.6682 |
1.0 |
2816 |
0.0872 |
0.6916 |
0.7306 |
0.0684 |
2.0 |
5632 |
0.0464 |
0.8167 |
0.8538 |
0.0444 |
3.0 |
8448 |
0.0367 |
0.8485 |
0.8783 |
框架版本
- Transformers 4.10.3
- Pytorch 1.9.0+cu102
- Datasets 1.12.1
- Tokenizers 0.10.3