license: cc-by-nc-sa-4.0
library_name: span-marker
tags:
- span-marker
- token-classification
- ner
- named-entity-recognition
pipeline_tag: token-classification
widget:
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "德语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "英语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "西班牙语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B穿越大西洋飞往巴黎。"
example_title: "法语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "意大利语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "荷兰语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "波兰语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "葡萄牙语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "俄语"
- text: "阿梅莉亚·埃尔哈特驾驶单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "冰岛语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "希腊语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "捷克语"
- text: "阿梅莉亚·埃尔哈特驾驶单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "芬兰语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "丹麦语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "瑞典语"
- text: "阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "挪威语"
- text: "阿梅莉亚·埃尔哈特驾驶单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "罗马尼亚语"
- text: "阿梅莉亚·埃尔哈特驾驶单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "印尼语"
- text: "阿梅莉亚·埃尔哈特驾驶单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "白俄罗斯语"
- text: "阿梅莉亚·埃尔哈特驾驶单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "乌克兰语"
- text: "阿梅莉亚·埃尔哈特驾驶单引擎洛克希德Vega 5B飞越大西洋抵达巴黎。"
example_title: "克罗地亚语"
- text: "阿梅莉亚·埃尔哈特驾驶单引擎洛克希德Vega 5B飞越大西洋前往巴黎。"
example_title: "爱沙尼亚语"
model-index:
- name: "Tom Aarsen基于bert-base-multilingual-cased在MultiNERD上训练的SpanMarker模型"
results:
- task:
type: token-classification
name: 命名实体识别
dataset:
type: Babelscape/multinerd
name: MultiNERD
split: test
revision: 2814b78e7af4b5a1f1886fe7ad49632de4d9dd25
metrics:
- type: f1
value: 0.92478
name: F1值
- type: precision
value: 0.93385
name: 精确率
- type: recall
value: 0.91588
name: 召回率
datasets:
- Babelscape/multinerd
language:
- multilingual
metrics:
- f1
- recall
- precision
base_model: bert-base-multilingual-cased
多语言命名实体识别的SpanMarker模型
这是一个基于MultiNERD数据集训练的SpanMarker模型,可用于多语言命名实体识别。该SpanMarker模型使用bert-base-multilingual-cased作为基础编码器。训练脚本参见train.py。
如果您的数据大小写不规范,建议使用@lxyuan提供的该模型的无大小写版本以获得更好性能:
lxyuan/span-marker-bert-base-multilingual-uncased-multinerd。
性能指标
语言 |
精确率 |
召回率 |
F1值 |
全部 |
93.39 |
91.59 |
92.48 |
德语 |
95.21 |
94.32 |
94.76 |
英语 |
95.07 |
95.29 |
95.18 |
西班牙语 |
93.50 |
89.65 |
91.53 |
法语 |
93.86 |
90.07 |
91.92 |
意大利语 |
91.63 |
93.57 |
92.59 |
荷兰语 |
94.86 |
91.74 |
93.27 |
波兰语 |
93.51 |
91.83 |
92.66 |
葡萄牙语 |
94.48 |
91.30 |
92.86 |
俄语 |
93.70 |
93.10 |
93.39 |
中文 |
88.36 |
85.71 |
87.02 |
标签集
类别 |
描述 |
示例 |
PER (人物) |
人名 |
雷·查尔斯、杰西卡·阿尔芭、莱昂纳多·迪卡普里奥、罗杰·费德勒、安娜·梅西。 |
ORG (组织) |
协会、公司、机构、国籍以及宗教或政治团体 |
爱丁堡大学、旧金山巨人队、谷歌、民主党。 |
LOC (地点) |
物理位置(如山脉、水体)、地理政治实体(如城市、州)以及设施(如桥梁、建筑物、机场)。 |
罗马、派库湖、克莱斯勒大厦、拉什莫尔山、密西西比河。 |
ANIM (动物) |
狗、猫等动物的品种,包括其学名。 |
缅因猫、非洲野狗、大白鲨、新西兰钟鸟。 |
BIO (生物) |
真菌、细菌和原生生物的属,病毒科以及其他生物实体。 |
单纯疱疹病毒、大肠杆菌、沙门氏菌、炭疽杆菌。 |
CEL (天体) |
行星、恒星、小行星、彗星、星云、星系和其他天文物体。 |
太阳、海王星、187号小行星兰伯特、比邻星、麒麟座V838。 |
DIS (疾病) |
身体、精神、传染性、非传染性、缺乏性、遗传性、退行性、社会和自残性疾病。 |
阿尔茨海默病、囊性纤维化、扩张型心肌病、关节炎。 |
EVE (事件) |
体育赛事、战役、战争和其他事件。 |
美国内战、2003年温布尔登锦标赛、戛纳电影节。 |
FOOD (食物) |
食品和饮料。 |
卡邦尼意面、桑娇维塞、切达啤酒火锅、玛格丽特披萨。 |
INST (工具) |
技术仪器、机械仪器、乐器和其他工具。 |
斯皮策太空望远镜、康懋达64、Skype、苹果手表、芬达Stratocaster吉他。 |
MEDIA (媒体) |
电影、书籍、杂志、歌曲和专辑的标题,虚构人物和语言。 |
福布斯、美国精神病人、吻我一次、双峰、迪士尼冒险。 |
PLANT (植物) |
树木、花卉和其他植物的类型,包括其学名。 |
柳树、无梗花栎、道格拉斯冷杉、连翘、海滨蒿。 |
MYTH (神话) |
神话和宗教实体。 |
阿波罗、珀耳塞福涅、阿芙罗狄蒂、圣彼得、教皇格里高利一世、赫拉克勒斯。 |
TIME (时间) |
具体明确的时间间隔,如时代、历史时期、世纪、年份和重要日子。不包括月份和星期几。 |
文艺复兴、中世纪、圣诞节、大萧条、17世纪、2012年。 |
VEHI (交通工具) |
汽车、摩托车和其他交通工具。 |
法拉利Testarossa、铃木吉姆尼、本田CR-X、波音747、费尔雷Fulmar战斗机。 |
使用方法
首先安装span_marker
库以使用该模型进行推理:
pip install span_marker
然后可以按如下方式运行推理:
from span_marker import SpanMarkerModel
model = SpanMarkerModel.from_pretrained("tomaarsen/span-marker-mbert-base-multinerd")
entities = model.predict("阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德Vega 5B飞越大西洋前往巴黎。")
有关该库的文档和更多信息,请参阅SpanMarker仓库。
训练过程
训练超参数
训练期间使用的超参数如下:
- 学习率:5e-05
- 训练批次大小:32
- 评估批次大小:32
- 随机种子:42
- 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 学习率预热比例:0.1
- 训练轮数:1
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
总体精确率 |
总体召回率 |
总体F1值 |
总体准确率 |
0.0179 |
0.01 |
1000 |
0.0146 |
0.8101 |
0.7616 |
0.7851 |
0.9530 |
0.0099 |
0.02 |
2000 |
0.0091 |
0.8571 |
0.8425 |
0.8498 |
0.9663 |
0.0085 |
0.03 |
3000 |
0.0078 |
0.8729 |
0.8579 |
0.8653 |
0.9700 |
0.0075 |
0.04 |
4000 |
0.0072 |
0.8821 |
0.8724 |
0.8772 |
0.9739 |
0.0074 |
0.05 |
5000 |
0.0075 |
0.8622 |
0.8841 |
0.8730 |
0.9722 |
0.0074 |
0.06 |
6000 |
0.0067 |
0.9056 |
0.8568 |
0.8805 |
0.9749 |
0.0066 |
0.07 |
7000 |
0.0065 |
0.9082 |
0.8543 |
0.8804 |
|