tner-xlm-roberta-base-ontonotes5开源模型 - 免费支持英文文本实体标记分类

首页

Tner Xlm Roberta Base Ontonotes5

由 asahi417 开发

基于XLM-RoBERTa微调的命名实体识别模型，支持英语文本中的实体标记分类任务。

序列标注

Transformers

英语#多语言NER #标记分类 #XLM-RoBERTa微调

下载量 17.30k

发布时间 : 3/2/2022

模型简介

该模型是基于XLM-RoBERTa架构微调的命名实体识别(NER)模型，专门用于识别和分类文本中的命名实体（如人名、组织名、地点等）。

模型特点

多语言预训练基础

基于XLM-RoBERTa架构，具有强大的多语言理解能力

实体分类能力

能够识别和分类文本中的人名(PER)、组织名(ORG)、地点(LOC)等多种实体类型

易于集成

可与tner库配合使用，便于在实际应用中部署

模型能力

文本标记分类

命名实体识别

英语文本处理

使用案例

信息提取

新闻文章实体提取

从新闻文章中提取人名、组织名和地点等关键信息

社交媒体分析

分析社交媒体文本中提及的实体

知识图谱构建

知识图谱实体识别

为知识图谱构建提供实体识别支持

🚀 XLM - RoBERTa命名实体识别模型卡片

XLM - RoBERTa是一个针对命名实体识别（NER）任务进行微调的模型，可用于标记文本中的实体，在自然语言处理领域具有重要价值。

🚀 快速开始

使用以下代码开始使用该模型：

点击展开

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")

model = AutoModelForTokenClassification.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")

✨ 主要特性

微调模型：基于XLM - RoBERTa进行微调，适用于命名实体识别任务。
多用途：可直接用于Token分类，也可结合tner库进行下游任务。

📚 详细文档

模型详情

模型描述

XLM - RoBERTa针对命名实体识别进行了微调。

属性	详情
开发者	Asahi Ushio
共享方	Hugging Face
模型类型	Token分类
支持语言	英语
许可证	需更多信息
相关模型	XLM - RoBERTa
父模型	XLM - RoBERTa
更多信息资源	GitHub仓库相关论文 Space

使用方式

直接使用

Token分类

下游使用

该模型可与tner库结合使用。

不适用场景

该模型不应用于故意为人们创造敌对或排斥性的环境。

偏差、风险和局限性

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见Sheng等人 (2021) 和 Bender等人 (2021)）。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

建议

用户（直接用户和下游用户）应了解该模型的风险、偏差和局限性。如需进一步建议，需更多信息。

训练详情

训练数据

一个NER数据集包含每个分割（通常为train/validation/test）的一系列标记和标签，示例如下：

{
    'train': {
        'tokens': [
            ['@paulwalk', 'It', "'s", 'the', 'view', 'from', 'where', 'I', "'m", 'living', 'for', 'two', 'weeks', '.', 'Empire', 'State', 'Building', '=', 'ESB', '.', 'Pretty', 'bad', 'storm', 'here', 'last', 'evening', '.'],
            ['From', 'Green', 'Newsfeed', ':', 'AHFA', 'extends', 'deadline', 'for', 'Sage', 'Award', 'to', 'Nov', '.', '5', 'http://tinyurl.com/24agj38'], ...
        ],
        'tags': [
            [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
            [0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], ...
        ]
    },
    'validation': ...,
    'test': ...,
}

还有一个将标签映射到其索引的字典（label2id），如下所示：

{"O": 0, "B-ORG": 1, "B-MISC": 2, "B-PER": 3, "I-PER": 4, "B-LOC": 5, "I-ORG": 6, "I-MISC": 7, "I-LOC": 8}

训练过程

预处理

需更多信息

速度、大小、时间

Layer_norm_eps：1e - 05
Num_attention_heads：12
Num_hidden_layers：12
Vocab_size：250002

评估

测试数据、因素和指标

测试数据

完整的数据集列表请参见数据集卡片

因素

需更多信息

指标

需更多信息

结果

需更多信息

模型检查

需更多信息

环境影响

可以使用Lacoste等人 (2019) 中提出的机器学习影响计算器来估算碳排放。

硬件类型：需更多信息
使用时长：需更多信息
云服务提供商：需更多信息
计算区域：需更多信息
碳排放：需更多信息

技术规格（可选）

模型架构和目标

需更多信息

计算基础设施

硬件

需更多信息

软件

需更多信息

引用

BibTeX：

@inproceedings{ushio-camacho-collados-2021-ner,
    title = "{T}-{NER}: An All-Round Python Library for Transformer-based Named Entity Recognition",
    author = "Ushio, Asahi  and
      Camacho-Collados, Jose",
    booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.eacl-demos.7",
    pages = "53--62",
}