modernbert-ner-conll2003开源命名实体识别模型 - 精准识别人员、组织和地点

首页

Modernbert Ner Conll2003

由 IsmaelMousa 开发

基于ModernBERT-base微调的命名实体识别模型，在CoNLL2003数据集上训练，擅长识别人物、组织和地点实体。

序列标注

Transformers

英语开源协议:Apache-2.0 #高精度NER #英文实体识别 #ModernBERT优化

下载量 40

发布时间 : 1/7/2025

模型简介

该模型是针对英文文本的命名实体识别(NER)模型，能够准确识别文本中的人物(PER)、组织(ORG)和地点(LOC)等实体。

模型特点

高性能实体识别

在CoNLL2003验证集上达到F1值0.8455的优异表现

基于ModernBERT架构

采用优化的BERT架构，具有更强的上下文理解能力

多类别实体识别

可同时识别人物、组织和地点三类实体

模型能力

命名实体识别

文本分析

信息提取

使用案例

信息提取

新闻文本分析

从新闻文章中提取关键人物、组织和地点信息

准确识别文本中的命名实体

文档处理

自动化处理商业文档中的实体信息

提高文档处理效率

🚀 ModernBERT命名实体识别（CoNLL2003）

本模型是 answerdotai/ModernBERT-base 在CoNLL2003数据集上针对命名实体识别（NER）任务进行微调后的版本。

在识别人物、组织和地点等实体的任务中表现出色。

该模型在评估集上取得了以下成绩：

损失率：0.0992
精确率：0.8349
召回率：0.8563
F1值：0.8455
准确率：0.9752

✨ 主要特性

强大的实体识别能力：能够准确识别文本中的人物、组织和地点等命名实体。
基于优质基础模型：以ModernBERT为基础，在CoNLL2003数据集上进行微调，具有良好的泛化能力。

📦 安装指南

文档中未提及安装步骤，可参考Hugging Face Transformers库的官方安装指南进行安装。

💻 使用示例

基础用法

from transformers import pipeline

ner = pipeline(task="token-classification", model="IsmaelMousa/modernbert-ner-conll2003", aggregation_strategy="max")

results = ner("Hi, I'm Ismael Mousa from Palestine working for NVIDIA inc.")

for entity in results:
    for key, value in entity.items():
        if key == "entity_group":
            print(f"{entity['word']} => {entity[key]}")

运行上述代码，输出结果如下：

Ismael Mousa => PER
Palestine => LOC
NVIDIA => ORG

📚 详细文档

模型详情

属性	详情
基础模型	ModernBERT: https://doi.org/10.48550/arXiv.2412.13663
微调数据集	CoNLL2003: https://huggingface.co/datasets/eriktks/conll2003
任务	命名实体识别（NER）

训练数据

该模型在CoNLL2003数据集上进行了微调，这是一个著名的命名实体识别基准数据集。此数据集为模型在通用英文文本上的泛化提供了坚实的基础。

训练超参数

以下是训练过程中使用的超参数：

学习率：1e-06
训练批次大小：8
评估批次大小：8
随机种子：42
优化器：使用adamw_torch，β值为(0.9, 0.999)，ε值为1e-08，无额外优化器参数
学习率调度器类型：线性
训练轮数：10

训练结果

训练损失	轮数	步数	验证损失	精确率	召回率	F1值	准确率
0.2306	1.0	1756	0.2243	0.6074	0.6483	0.6272	0.9406
0.1415	2.0	3512	0.1583	0.7258	0.7536	0.7394	0.9583
0.1143	3.0	5268	0.1335	0.7731	0.7989	0.7858	0.9657
0.0913	4.0	7024	0.1145	0.7958	0.8256	0.8104	0.9699
0.0848	5.0	8780	0.1079	0.8120	0.8408	0.8261	0.9720
0.0728	6.0	10536	0.1036	0.8214	0.8452	0.8331	0.9730
0.0623	7.0	12292	0.1032	0.8258	0.8487	0.8371	0.9737
0.0599	8.0	14048	0.0990	0.8289	0.8527	0.8406	0.9745
0.0558	9.0	15804	0.0998	0.8331	0.8541	0.8434	0.9750
0.0559	10.0	17560	0.0992	0.8349	0.8563	0.8455	0.9752