ner-spanish-large开源西班牙语NER模型 - 免费识别4类信息助力语言处理

首页

Ner Spanish Large

由 flair 开发

Flair框架自带的大规模西班牙语4类NER模型，基于XLM-R嵌入和FLERT技术构建

序列标注

PyTorch

西班牙语#西班牙语NER #文档级XLM-R嵌入 #FLERT技术

下载量 2,847

发布时间 : 3/2/2022

模型简介

这是一个用于西班牙语命名实体识别的序列标注模型，能够识别人物、地点、组织机构和其他专有名词四类实体

模型特点

文档级上下文理解

采用FLERT技术，利用文档级上下文信息提升NER性能

多类别识别

可识别人物(PER)、地点(LOC)、组织机构(ORG)和其他专有名词(MISC)四类实体

高性能XLM-R嵌入

基于XLM-RoBERTa-large预训练模型，提供强大的语义表示能力

模型能力

西班牙语文本实体识别

多类别实体标注

文档级上下文理解

使用案例

文本分析

新闻文本实体提取

从西班牙语新闻中提取人物、地点和组织机构信息

准确识别文本中的各类命名实体

社交媒体分析

分析西班牙语社交媒体内容中的实体提及情况

追踪特定实体在社交媒体的出现频率和上下文

🚀 Flair西班牙语命名实体识别（大模型）

本项目提供了一个用于西班牙语的大型4类命名实体识别（NER）模型，该模型基于 Flair 框架构建。它能够准确识别西班牙语文本中的人名、地名、组织机构名和其他类型的实体，F1分数达到了 90.54（基于CoNLL - 03西班牙语数据集），为西班牙语的信息提取和文本分析提供了强大的支持。

🚀 快速开始

本模型基于Flair框架，使用前请确保已经安装Flair库。你可以通过以下命令进行安装：

pip install flair

✨ 主要特性

高准确率：在CoNLL - 03西班牙语数据集上，F1分数达到了 90.54，能够准确识别西班牙语文本中的各类实体。
4类实体识别：可以识别4种类型的命名实体，包括人名（PER）、地名（LOC）、组织机构名（ORG）和其他类型（MISC）。
基于文档级嵌入：采用了XLM - R的文档级嵌入和 FLERT 技术，能够更好地捕捉文本的上下文信息。

属性	详情
模型类型	用于西班牙语的4类命名实体识别模型
训练数据	CoNLL - 03西班牙语数据集

💻 使用示例

基础用法

以下是一个简单的示例，展示了如何使用该模型进行命名实体识别：

from flair.data import Sentence
from flair.models import SequenceTagger

# 加载标签器
tagger = SequenceTagger.load("flair/ner-spanish-large")

# 创建示例句子
sentence = Sentence("George Washington fue a Washington")

# 预测命名实体标签
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印预测的命名实体跨度
print('The following NER tags are found:')
# 遍历实体并打印
for entity in sentence.get_spans('ner'):
    print(entity)

此代码将产生以下输出：

Span [1,2]: "George Washington"   [− Labels: PER (1.0)]
Span [5]: "Washington"   [− Labels: LOC (1.0)]

在句子 "George Washington fue a Washington" 中，模型成功识别出了实体 "George Washington"（标记为人名）和 "Washington"（标记为地名）。

🔧 技术细节

本模型的训练过程基于Flair框架，具体步骤如下：

获取语料库：使用CoNLL - 03西班牙语数据集作为训练数据。
确定标签类型：要预测的标签类型为 ner。
创建标签字典：从语料库中生成标签字典。
初始化嵌入层：使用 TransformerWordEmbeddings 初始化可微调的XLM - Roberta大模型嵌入，并结合文档上下文信息。
初始化序列标签器：使用 SequenceTagger 初始化一个简单的序列标签器，不使用CRF、RNN和重投影。
初始化训练器：使用 AdamW 优化器初始化训练器。
运行训练：设置训练参数，如学习率、批次大小、训练轮数等，进行模型训练。

以下是训练该模型的完整代码：

import torch

# 1. 获取语料库
from flair.datasets import CONLL_03_SPANISH

corpus = CONLL_03_SPANISH()

# 2. 要预测的标签类型是什么？
tag_type = 'ner'

# 3. 从语料库中创建标签字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化可微调的带文档上下文的Transformer嵌入
from flair.embeddings import TransformerWordEmbeddings

embeddings = TransformerWordEmbeddings(
    model='xlm-roberta-large',
    layers="-1",
    subtoken_pooling="first",
    fine_tune=True,
    use_context=True,
)

# 5. 初始化简单的序列标签器（无CRF、无RNN、无重投影）
from flair.models import SequenceTagger

tagger = SequenceTagger(
    hidden_size=256,
    embeddings=embeddings,
    tag_dictionary=tag_dictionary,
    tag_type='ner',
    use_crf=False,
    use_rnn=False,
    reproject_embeddings=False,
)

# 6. 使用AdamW优化器初始化训练器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus, optimizer=torch.optim.AdamW)

# 7. 使用XLM参数运行训练（20个epoch，小学习率）
from torch.optim.lr_scheduler import OneCycleLR

trainer.train('resources/taggers/ner-spanish-large',
              learning_rate=5.0e-6,
              mini_batch_size=4,
              mini_batch_chunk_size=1,
              max_epochs=20,
              scheduler=OneCycleLR,
              embeddings_storage_mode='none',
              weight_decay=0.,
              )

📄 许可证

文档中未提及相关许可证信息。

📚 详细文档

引用

使用此模型时，请引用以下论文：

@misc{schweter2020flert,
    title={FLERT: Document-Level Features for Named Entity Recognition},
    author={Stefan Schweter and Alan Akbik},
    year={2020},
    eprint={2011.06993},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}