bert-large-NER开源命名实体识别模型 - 免费部署实现先进的信息提取性能

首页

Bert Large NER

由 dslim 开发

基于BERT-large微调的命名实体识别模型，在CoNLL-2003数据集上实现最先进性能

序列标注英语开源协议:MIT #命名实体识别 #高精度NER #BERT微调

下载量 360.98k

发布时间 : 3/2/2022

模型简介

该模型专门用于识别文本中的命名实体，包括地点(LOC)、组织(ORG)、人名(PER)和其他类别(MISC)。

模型特点

最先进的性能

在CoNLL-2003测试集上达到F1分数91.7的高性能表现

基于BERT-large

使用bert-large-cased作为基础模型，具有更强的表示能力

四种实体识别

能够准确识别地点、组织、人名和其他类别四种实体类型

模型能力

命名实体识别

文本标记分类

自然语言处理

使用案例

信息提取

新闻文章实体提取

从新闻文章中提取人名、组织名和地点名等关键信息

准确识别文本中的关键实体

文档分析

分析商业文档或法律文件中的命名实体

帮助快速定位文档中的关键信息

🚀 bert-large-NER

bert-large-NER 是一个经过微调的 BERT 模型，可直接用于 命名实体识别（Named Entity Recognition），并在该任务中达到了 业界领先的性能。它经过训练，能够识别四种类型的实体：地点（LOC）、组织（ORG）、人物（PER）和其他（MISC）。

🚀 快速开始

如果你觉得我的开源模型对你有帮助，请考虑支持我为大家构建小型实用的 AI 模型（也能帮我支付医学院的学费 / 在经济上帮助我的父母）。感谢！

✨ 主要特性

微调模型：基于 bert-large-cased 模型，在英文标准 CoNLL - 2003 命名实体识别数据集上进行了微调。
多实体识别：能够识别四种常见类型的实体，包括地点、组织、人物和其他。
高性能表现：在 CoNLL - 2003 数据集的测试集上，准确率达到 0.9031688753722759，F1 值达到 0.9196968510445761。

📦 安装指南

暂未提供安装步骤相关内容。

💻 使用示例

基础用法

你可以使用 Transformers 的 pipeline 来进行命名实体识别。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dslim/bert-large-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-large-NER")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"

ner_results = nlp(example)
print(ner_results)

📚 详细文档

预期用途与限制

如何使用

可以使用上述代码示例中的方式，利用 Transformers 的 pipeline 进行命名实体识别。

限制和偏差

该模型受其训练数据集的限制，训练数据为特定时间段内带有实体标注的新闻文章。这可能导致它在不同领域的所有用例中泛化能力不佳。此外，模型偶尔会将子词标记为实体，因此可能需要对结果进行后处理以处理这些情况。

训练数据

此模型在英文标准 CoNLL - 2003 命名实体识别数据集上进行了微调。

训练数据集区分了实体的开始和延续，这样如果有连续的同类型实体，模型可以输出第二个实体的起始位置。在数据集中，每个标记将被分类为以下类别之一：

缩写	描述
O	命名实体之外
B - MIS	紧接在另一个其他实体之后的其他实体的开始
I - MIS	其他实体
B - PER	紧接在另一个人物名称之后的人物名称的开始
I - PER	人物名称
B - ORG	紧接在另一个组织之后的组织的开始
I - ORG	组织
B - LOC	紧接在另一个地点之后的地点的开始
I - LOC	地点

CoNLL - 2003 英文数据集统计信息

该数据集源自路透社语料库，由路透社新闻故事组成。你可以在 CoNLL - 2003 论文中了解更多关于此数据集的创建方式。

每个实体类型的训练示例数量 | 数据集 | LOC | MISC | ORG | PER | |------|------|------|------|------| | Train | 7140 | 3438 | 6321 | 6600 | | Dev | 1837 | 922 | 1341 | 1842 | | Test | 1668 | 702 | 1661 | 1617 |
每个数据集的文章/句子/标记数量 | 数据集 | 文章 | 句子 | 标记 | |------|------|------|------| | Train | 946 | 14,987 | 203,621 | | Dev | 216 | 3,466 | 51,362 | | Test | 231 | 3,684 | 46,435 |

训练过程

该模型在单个 NVIDIA V100 GPU 上进行训练，使用了原始 BERT 论文中推荐的超参数，该论文在 CoNLL - 2003 命名实体识别任务上对模型进行了训练和评估。

评估结果

指标	开发集	测试集
f1	95.7	91.7
precision	95.3	91.2
recall	96.1	92.3

测试指标略低于官方 Google BERT 的结果，后者对文档上下文进行了编码并对 CRF 进行了实验。关于复现原始结果的更多信息点击这里。

BibTeX 引用和引用信息

@article{DBLP:journals/corr/abs-1810-04805,
  author    = {Jacob Devlin and
               Ming{-}Wei Chang and
               Kenton Lee and
               Kristina Toutanova},
  title     = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
               Understanding},
  journal   = {CoRR},
  volume    = {abs/1810.04805},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.04805},
  archivePrefix = {arXiv},
  eprint    = {1810.04805},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.  and
      De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}