distilroberta-base-ner-wikiann开源命名实体识别模型

首页

Distilroberta Base Ner Wikiann

由 philschmid 开发

基于DistilRoBERTa-base模型在wikiann数据集上微调的命名实体识别模型，用于识别文本中的命名实体。

序列标注

Transformers

开源协议:Apache-2.0 #命名实体识别 #多语言支持 #高精度NER

下载量 16

发布时间 : 3/2/2022

模型简介

该模型是基于DistilRoBERTa-base的轻量级版本，在wikiann数据集上进行微调，专门用于命名实体识别任务。

模型特点

高效轻量

基于DistilRoBERTa的轻量级架构，在保持性能的同时减少计算资源需求。

高精度识别

在wikiann测试集上达到83.78%的F1值，表现优秀。

多语言支持

基于wikiann多语言数据集训练，支持多种语言的命名实体识别。

模型能力

命名实体识别

文本标记分类

多语言文本处理

使用案例

信息提取

新闻文章实体识别

从新闻文章中提取人名、地名、组织名等实体信息。

准确率约92%

社交媒体文本分析

分析社交媒体文本中的实体信息，用于用户画像构建。

知识图谱构建

知识图谱实体抽取

从非结构化文本中抽取实体用于知识图谱构建。

🚀 distilroberta-base-ner-wikiann

该模型是 distilroberta-base 在wikiann数据集上的微调版本，可用于标记分类任务，具有较高的准确率和F1分数。

🚀 快速开始

本模型是在wikiann数据集上对 distilroberta-base 进行微调得到的。

评估集F1分数：83.78 测试集F1分数：83.76

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("philschmid/distilroberta-base-ner-wikiann")
model = AutoModelForTokenClassification.from_pretrained("philschmid/distilroberta-base-ner-wikiann")

nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "My name is Philipp and live in Germany"

nlp(example)

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率：4.9086903597787154e-05
训练批次大小：32
评估批次大小：16
随机种子：42
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
训练轮数：5.0
混合精度训练：Native AMP

训练结果

该模型在评估集上取得了以下结果：

损失：0.3156
精确率：0.8332
召回率：0.8424
F1分数：0.8378
准确率：0.9193

在测试集上取得了以下结果：

损失：0.3023
精确率：0.8301
召回率：0.8452
F1分数：0.8376
准确率：0.92

框架版本

Transformers 4.6.1
Pytorch 1.8.1+cu101
Datasets 1.6.2
Tokenizers 0.10.2

📄 许可证

本项目采用Apache-2.0许可证。

📋 模型信息

属性	详情
模型类型	标记分类
训练数据	wikiann
评估指标	精确率、召回率、F1分数、准确率

模型索引：

名称：distilroberta-base-ner-wikiann
- 结果：
  - 任务：
    - 类型：标记分类
    - 名称：标记分类
  - 数据集：
    - 名称：wikiann
    - 类型：wikiann
  - 指标：
    - 类型：精确率
    - 值：0.8331921416757433
    - 名称：精确率
    - 类型：召回率
    - 值：0.84243586083126
    - 名称：召回率
    - 类型：F1分数
    - 值：0.8377885044416501
    - 名称：F1分数
    - 类型：准确率
    - 值：0.91930707459758
    - 名称：准确率
  - 任务：
    - 类型：标记分类
    - 名称：标记分类
  - 数据集：
    - 名称：wikiann
    - 类型：wikiann
    - 配置：en
    - 分割：测试集
  - 指标：
    - 类型：准确率
    - 值：0.9200373733433721
    - 名称：准确率
    - 已验证：是
    - 验证令牌：eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNGFmMTNkZDYwMDllNjE5ZTVjYzYwYTQyMDFjYzNkYTkxZmVmOTNkOTFlOTU4MmM2MmFlMWQzMTcwZGViOTA3ZCIsInZlcnNpb24iOjF9.pOwPcBmA7XJdq9QgCNoCivTsu0WfsCnvRtzObDrqhFtrO2PjLNf9tmlQeahGcBGFo6yIHvhndBYwf__lN-4nBg
    - 类型：精确率
    - 值：0.9258482820953792
    - 名称：精确率
    - 已验证：是
    - 验证令牌：eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMzFhNGJlMzk0N2JmYmU3YjAxZjJjNGFjZjZjOTJhODc3MjQyODMzYzE2Y2Y4NWQ4YThhMjg3NWI1MGRmODczMiIsInZlcnNpb24iOjF9.eVTQJqXeGY0XZaGURXBrT8sjMl7O_SxuFB4NS7C6jbpr46MMZdusvzkmndOIrGjReB2vB3sAmpcT0hydpqRkDg
    - 类型：召回率
    - 值：0.9347545055892119
    - 名称：召回率
    - 已验证：是
    - 验证令牌：eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiN2Y5ZGIzM2JlOWNjZGUzOWU5MGIwOTFiODM4NmU3NGQ3ZmUxYzM4ZmYxNjIwOTE0ZWFiYWJhMzk4NDg4ZjI3MSIsInZlcnNpb24iOjF9.tzl3gTEDFuj7kpGsERkQzXfh7B0Qwao31VcXKF1rSvf3ulVgXsU-vTB2oZiGr3w5AySr_80J0pIpSpvGzfhNAQ
    - 类型：F1分数
    - 值：0.9302800779500893
    - 名称：F1分数
    - 已验证：是
    - 验证令牌：eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYjY5MDM2ZWQ1MzJmNDFhMGFmZmQ1MzM0NmJmOTVmYTM1OWZmNzc4YWI4ZWUwMTFlMTQ5MTJmYWRhNmVmZTUyZCIsInZlcnNpb24iOjF9.zMUq4ZGLfu0eQF7lHNkaf6LByypIevygVGLpBA3jW80OUy5VeZDK7d6q0RV_N4SO5gTkLEjoDvSqLDcaw-9VBw
    - 类型：损失
    - 值：0.3007512390613556
    - 名称：损失
    - 已验证：是
    - 验证令牌：eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNzI5YmIxODFkN2NkYzJkZDgyZTc4MDhlMDkyMzM3NWFiZWQ1MmUzMDA1MGYyM2RlNzVlNTIwNDcwNTFmNjYwMSIsInZlcnNpb24iOjF9.D8vx5YhoNHY4CdRXEt3rL95odR2kZJ1e_c34HD28xX9YeWKIjjt4E0FSz6Xw4ufJd9UlCnQ_u4VPFTYI-RXlCQ