language: zh
datasets:
- conll2003
widget:
- text: "我叫jean-baptiste,住在蒙特利尔"
- text: "我叫clara,住在加利福尼亚州伯克利市"
- text: "我叫wolfgang,住在柏林"
roberta-large-ner-english:基于roberta-large微调的英文命名实体识别模型
简介
[roberta-large-ner-english]是基于roberta-large模型在conll2003数据集上微调的英文命名实体识别模型。该模型在电子邮件/聊天数据上进行了验证,尤其在此类数据上表现优于其他模型。特别值得注意的是,该模型对非首字母大写的实体识别效果更佳。
训练数据
训练数据分类如下:
缩写 |
描述 |
O |
非命名实体 |
MISC |
杂项实体 |
PER |
人名 |
ORG |
组织机构名 |
LOC |
地名 |
为简化处理,原始conll2003数据中的B-或I-前缀已被移除。使用原始conll2003的训练集和测试集进行训练,并用"验证集"进行验证,最终数据集规模为:
使用指南(HuggingFace版)
加载模型及子词分词器:
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/roberta-large-ner-english")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/roberta-large-ner-english")
from transformers import pipeline
nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
nlp("苹果公司由史蒂夫·乔布斯、史蒂夫·沃兹尼亚克和罗纳德·韦恩于1976年创立,旨在开发和销售沃兹尼亚克的Apple I个人电脑")
[{'entity_group': 'ORG',
'score': 0.99381506,
'word': ' 苹果',
'start': 0,
'end': 5},
{'entity_group': 'PER',
'score': 0.99970853,
'word': ' 史蒂夫·乔布斯',
'start': 29,
'end': 39},
{'entity_group': 'PER',
'score': 0.99981767,
'word': ' 史蒂夫·沃兹尼亚克',
'start': 41,
'end': 54},
{'entity_group': 'PER',
'score': 0.99956465,
'word': ' 罗纳德·韦恩',
'start': 59,
'end': 71},
{'entity_group': 'PER',
'score': 0.9997918,
'word': ' 沃兹尼亚克',
'start': 92,
'end': 99},
{'entity_group': 'MISC',
'score': 0.99956393,
'word': ' Apple I',
'start': 102,
'end': 109}]
模型性能
基于conll2003验证集计算的token级预测性能:
实体类型 |
精确率 |
召回率 |
F1值 |
人名 |
0.9914 |
0.9927 |
0.9920 |
机构名 |
0.9627 |
0.9661 |
0.9644 |
地名 |
0.9795 |
0.9862 |
0.9828 |
杂项 |
0.9292 |
0.9262 |
0.9277 |
综合 |
0.9740 |
0.9766 |
0.9753 |
在私有数据集(邮件/聊天/非正式对话)上的单词级预测表现:
实体类型 |
精确率 |
召回率 |
F1值 |
人名 |
0.8823 |
0.9116 |
0.8967 |
机构名 |
0.7694 |
0.7292 |
0.7487 |
地名 |
0.8619 |
0.7768 |
0.8171 |
作为对比,同私有数据集上Spacy(en_core_web_trf-3.2.0)的表现:
实体类型 |
精确率 |
召回率 |
F1值 |
人名 |
0.9146 |
0.8287 |
0.8695 |
机构名 |
0.7655 |
0.6437 |
0.6993 |
地名 |
0.8727 |
0.6180 |
0.7236 |