ner-english-ontonotes-large开源英语命名实体识别模型

首页

Ner English Ontonotes Large

由 flair 开发

Flair自带的英语18类命名实体识别大模型，基于Ontonotes数据集训练，采用XLM-R嵌入和FLERT技术。

序列标注

PyTorch

英语#18类实体识别 #文档级XLM-R嵌入 #FLERT技术

下载量 176.21k

发布时间 : 3/2/2022

模型简介

该模型用于英语文本中的命名实体识别，能够识别18种不同类型的命名实体，如人物、地点、日期等。

模型特点

多类别识别

能够识别18种不同类型的命名实体，包括人物、地点、日期、货币金额等。

高性能

在Ontonotes数据集上的F1分数达到90.93，表现优异。

文档级上下文

采用FLERT技术，利用文档级上下文信息提升识别准确率。

模型能力

命名实体识别

多类别实体标注

英语文本处理

使用案例

文本分析

新闻文本实体识别

识别新闻文本中的人物、地点、日期等实体。

准确标注各类实体，便于后续分析和处理。

金融文本分析

识别金融文本中的货币金额、百分比等实体。

帮助自动化处理金融数据。

🚀 Flair英文命名实体识别（Ontonotes大模型）

本项目是一个用于英文的18类命名实体识别（NER）大模型，它集成于 Flair 库中。该模型在英文文本的实体识别任务中表现出色，能准确识别多种类型的实体。

模型指标

在Ontonotes数据集上，模型的F1分数达到了 90.93，展现了其优秀的性能。

可预测的标签

模型能够预测以下18种标签：

标签	含义
CARDINAL	基数词
DATE	日期
EVENT	事件名称
FAC	建筑物名称
GPE	地理政治实体
LANGUAGE	语言名称
LAW	法律名称
LOC	地点名称
MONEY	货币名称
NORP	关联关系
ORDINAL	序数词
ORG	组织名称
PERCENT	百分比
PERSON	人名
PRODUCT	产品名称
QUANTITY	数量
TIME	时间
WORK_OF_ART	艺术作品名称

技术基础

该模型基于文档级的XLM - R嵌入和 FLERT 技术构建，能够充分利用文档上下文信息，提高实体识别的准确性。

🚀 快速开始

环境要求

需要安装 Flair 库，可以使用以下命令进行安装：

pip install flair

代码示例

from flair.data import Sentence
from flair.models import SequenceTagger

# 加载标签器
tagger = SequenceTagger.load("flair/ner-english-ontonotes-large")

# 创建示例句子
sentence = Sentence("On September 1st George won 1 dollar while watching Game of Thrones.")

# 预测命名实体识别标签
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印预测的命名实体识别跨度
print('The following NER tags are found:')
# 遍历实体并打印
for entity in sentence.get_spans('ner'):
    print(entity)

输出结果

Span [2,3]: "September 1st"   [− Labels: DATE (1.0)]
Span [4]: "George"   [− Labels: PERSON (1.0)]
Span [6,7]: "1 dollar"   [− Labels: MONEY (1.0)]
Span [10,11,12]: "Game of Thrones"   [− Labels: WORK_OF_ART (1.0)]

从输出结果可以看出，在句子 "On September 1st George Washington won 1 dollar while watching Game of Thrones" 中，识别出了实体 "September 1st"（标签为日期）、"George"（标签为人名）、"1 dollar"（标签为货币）和 "Game of Thrones"（标签为 艺术作品）。

🔧 训练脚本

以下是用于训练该模型的Flair脚本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加载语料库（Ontonotes未集成在Flair中，需要自行下载并重新格式化为列格式）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 我们要预测的标签类型是什么？
tag_type = 'ner'

# 3. 从语料库中创建标签字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化可微调的Transformer嵌入，并使用文档上下文
from flair.embeddings import TransformerWordEmbeddings

embeddings = TransformerWordEmbeddings(
    model='xlm-roberta-large',
    layers="-1",
    subtoken_pooling="first",
    fine_tune=True,
    use_context=True,
)

# 5. 初始化基础的序列标签器（无CRF、无RNN、无重新投影）
from flair.models import SequenceTagger

tagger = SequenceTagger(
    hidden_size=256,
    embeddings=embeddings,
    tag_dictionary=tag_dictionary,
    tag_type='ner',
    use_crf=False,
    use_rnn=False,
    reproject_embeddings=False,
)

# 6. 使用AdamW优化器初始化训练器
from flair.trainers import ModelTrainer
import torch

trainer = ModelTrainer(tagger, corpus, optimizer=torch.optim.AdamW)

# 7. 使用XLM参数运行训练（20个epoch，小学习率）
from torch.optim.lr_scheduler import OneCycleLR

trainer.train('resources/taggers/ner-english-ontonotes-large',
              learning_rate=5.0e-6,
              mini_batch_size=4,
              mini_batch_chunk_size=1,
              max_epochs=20,
              scheduler=OneCycleLR,
              embeddings_storage_mode='none',
              weight_decay=0.,
              )

📄 引用说明

使用该模型时，请引用以下论文：

@misc{schweter2020flert,
    title={FLERT: Document-Level Features for Named Entity Recognition},
    author={Stefan Schweter and Alan Akbik},
    year={2020},
    eprint={2011.06993},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}