distilbert-base-multilingual-cased-ner-hrl开源命名实体识别模型

首页

Distilbert Base Multilingual Cased Ner Hrl

由 Davlan 开发

一个面向10种高资源语言的命名实体识别模型，基于微调的Distil BERT基础模型，能够识别地点、组织和人物三类实体。

序列标注

Transformers

#多语言NER #高资源语言支持 #新闻领域实体识别

下载量 270.56k

发布时间 : 3/2/2022

模型简介

该模型是一个在10种高资源语言聚合数据上微调的DistilBERT模型，专门用于命名实体识别任务，支持识别LOC、ORG和PER三类实体。

模型特点

多语言支持

支持10种高资源语言的命名实体识别，包括阿拉伯语、中文等。

轻量级模型

基于DistilBERT架构，相比原始BERT模型更轻量，同时保持较高性能。

实体类型识别

能够准确识别地点(LOC)、组织(ORG)和人物(PER)三类实体。

模型能力

多语言文本处理

命名实体识别

序列标注

使用案例

信息提取

新闻文章实体提取

从多语言新闻文章中提取人物、组织和地点等关键实体信息。

准确识别文本中的命名实体及其类型

文本分析

多语言文档处理

处理包含多种语言的文档，提取其中的关键实体信息。

支持10种语言的实体识别

🚀 distilbert-base-multilingual-cased-ner-hrl

distilbert-base-multilingual-cased-ner-hrl 是一个用于命名实体识别的模型，它基于微调后的 Distiled BERT 基础模型，可处理 10 种高资源语言（阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文）。该模型经过训练，能够识别三种类型的实体：地点（LOC）、组织（ORG）和人物（PER）。

🚀 快速开始

使用 Transformers pipeline 进行命名实体识别（NER）

你可以使用以下代码示例来使用这个模型：

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/distilbert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

✨ 主要特性

多语言支持：支持 10 种高资源语言，包括阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文。
实体识别类型：能够识别三种类型的实体，分别是地点（LOC）、组织（ORG）和人物（PER）。

📚 详细文档

模型描述

distilbert-base-multilingual-cased-ner-hrl 是一个基于微调后的 Distiled BERT 基础模型的命名实体识别模型。它在 10 种高资源语言的聚合数据集上进行了微调，专门用于识别特定类型的实体。

预期用途和限制

使用方法

你可以使用 Transformers pipeline 来使用这个模型进行命名实体识别。具体代码示例见“快速开始”部分。

限制和偏差

该模型受限于其训练数据集，这些数据集是特定时间段内带有实体标注的新闻文章。因此，它可能无法很好地泛化到不同领域的所有用例。

训练数据

10 种语言的训练数据来源如下：

语言	数据集
阿拉伯语	ANERcorp
德语	conll 2003
英语	conll 2003
西班牙语	conll 2002
法语	Europeana Newspapers
意大利语	Italian I-CAB
拉脱维亚语	Latvian NER
荷兰语	conll 2002
葡萄牙语	Paramopama + Second Harem
中文	MSRA

训练数据集区分了实体的起始和延续，这样如果有连续的相同类型实体，模型可以输出第二个实体的起始位置。在数据集中，每个标记将被分类为以下类别之一：

缩写	描述
O	命名实体之外
B - PER	紧跟在另一个人名之后的人名起始
I - PER	人名
B - ORG	紧跟在另一个组织之后的组织起始
I - ORG	组织
B - LOC	紧跟在另一个地点之后的地点起始
I - LOC	地点