bert4ner-base-chinese开源模型 - 免费部署实现高效中文命名实体识别

首页

Bert4ner Base Chinese

由 shibing624 开发

基于BERT的中文命名实体识别模型，在人民日报数据集上达到接近最先进水平

序列标注

Transformers

支持多种语言开源协议:Apache-2.0 #中文实体识别 #BERT架构 #高精度NER

下载量 439

发布时间 : 5/7/2022

模型简介

该模型是一个基于BERT架构的中文命名实体识别模型，专门用于识别中文文本中的人名、地名、组织机构名和时间等实体。

模型特点

高性能

在人民日报测试集上F1值达到0.9525，接近最先进水平

支持多种实体类型

能够识别人名(PER)、地名(LOC)、组织机构名(ORG)和时间(TIME)等多种实体

易于使用

提供简单API接口和HuggingFace Transformers两种使用方式

模型能力

中文命名实体识别

文本分析

信息提取

使用案例

文本信息提取

简历信息提取

从简历文本中提取人名、出生年份等关键信息

示例输入中成功识别出'常建良'(人名)和'1963年'(时间)

新闻文本分析

分析新闻文本中的人物、地点和组织机构

示例输入中成功识别出'王宏伟'(人名)、'北京'(地点)和'王府井'(地点)

🚀 BERT中文命名实体识别(bert4ner)模型

BERT中文命名实体识别模型，可用于中文文本中的实体识别任务，在PEOPLE测试集上接近SOTA水平。

✨ 主要特性

在PEOPLE测试集上有接近SOTA的表现。
开源在实体识别项目nerpy，方便调用。
提供多种使用方式，支持不同场景需求。

📦 安装指南

使用`nerpy`调用模型

本项目开源在实体识别项目：nerpy，可支持bert4ner模型。若使用nerpy，可通过如下命令调用：

pip install nerpy

使用HuggingFace Transformers调用模型

若不使用nerpy，可按以下步骤操作。首先，你需要将输入数据通过transformer模型处理，然后应用bio标签来获取实体词。安装所需包：

pip install transformers seqeval

💻 使用示例

基础用法（使用`nerpy`）

from nerpy import NERModel
model = NERModel("bert", "shibing624/bert4ner-base-chinese")
predictions, raw_outputs, entities = model.predict(["常建良，男，1963年出生，工科学士，高级工程师"], split_on_space=False)
print("entities:", entities)

输出结果：

entities: [('常建良', 'PER'), ('1963年', 'TIME')]

高级用法（使用HuggingFace Transformers）

import os
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification
from seqeval.metrics.sequence_labeling import get_entities

os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"

# 从HuggingFace Hub加载模型
tokenizer = AutoTokenizer.from_pretrained("shibing624/bert4ner-base-chinese")
model = AutoModelForTokenClassification.from_pretrained("shibing624/bert4ner-base-chinese")
label_list = ['I-ORG', 'B-LOC', 'O', 'B-ORG', 'I-LOC', 'I-PER', 'B-TIME', 'I-TIME', 'B-PER']

sentence = "王宏伟来自北京，是个警察，喜欢去王府井游玩儿。"

def get_entity(sentence):
    tokens = tokenizer.tokenize(sentence)
    inputs = tokenizer.encode(sentence, return_tensors="pt")
    with torch.no_grad():
        outputs = model(inputs).logits
    predictions = torch.argmax(outputs, dim=2)
    char_tags = [(token, label_list[prediction]) for token, prediction in zip(tokens, predictions[0].numpy())][1:-1]
    print(sentence)
    print(char_tags)

    pred_labels = [i[1] for i in char_tags]
    entities = []
    line_entities = get_entities(pred_labels)
    for i in line_entities:
        word = sentence[i[1]: i[2] + 1]
        entity_type = i[0]
        entities.append((word, entity_type))

    print("Sentence entity:")
    print(entities)

get_entity(sentence)

输出结果：

王宏伟来自北京，是个警察，喜欢去王府井游玩儿。
[('王', 'B-PER'), ('宏', 'I-PER'), ('伟', 'I-PER'), ('来', 'O'), ('自', 'O'), ('北', 'B-LOC'), ('京', 'I-LOC'), ('，', 'O'), ('是', 'O'), ('个', 'O'), ('警', 'O'), ('察', 'O'), ('，', 'O'), ('喜', 'O'), ('欢', 'O'), ('去', 'O'), ('王', 'B-LOC'), ('府', 'I-LOC'), ('井', 'I-LOC'), ('游', 'O'), ('玩', 'O'), ('儿', 'O'), ('。', 'O')]
Sentence entity:
[('王宏伟', 'PER'), ('北京', 'LOC'), ('王府井', 'LOC')]

📚 详细文档

模型评估

bert4ner-base-chinese在PEOPLE（人民日报）测试数据上的评估结果如下：

BERT在PEOPLE测试集上的整体表现：

	准确率	召回率	F1值
BertSoftmax	0.9425	0.9627	0.9525

该模型在PEOPLE的测试集上达到接近SOTA水平。

网络结构

BertSoftmax的网络结构（原生BERT）： arch

模型文件组成

bert4ner-base-chinese
    ├── config.json
    ├── model_args.json
    ├── pytorch_model.bin
    ├── special_tokens_map.json
    ├── tokenizer_config.json
    └── vocab.txt

训练数据集

中文实体识别数据集

数据集	语料	下载链接	文件大小
`CNER中文实体识别数据集`	CNER(12万字)	CNER github	1.1MB
`PEOPLE中文实体识别数据集`	人民日报数据集（200万字）	PEOPLE github	12.8MB

CNER中文实体识别数据集的数据格式：

美	B-LOC
国	I-LOC
的	O
华	B-PER
莱	I-PER
士	I-PER

我	O
跟	O
他	O

若需要训练bert4ner，请参考https://github.com/shibing624/nerpy/tree/main/examples

📄 许可证

本项目采用Apache-2.0许可证。

📚 引用

@software{nerpy,
  author = {Xu Ming},
  title = {nerpy: Named Entity Recognition toolkit},
  year = {2022},
  url = {https://github.com/shibing624/nerpy},
}