marefa - ner开源阿拉伯语命名实体识别模型，轻松识别9种不同类型实体！

首页

Marefa Ner

由 marefa-nlp 开发

一个基于全新数据集构建的大型阿拉伯语命名实体识别（NER）模型，能识别9种不同类型的实体

序列标注

Transformers

阿拉伯语#阿拉伯语NER #多类别实体识别 #高精度F1

下载量 4,380

发布时间 : 3/2/2022

模型简介

该模型是一个文本片段分类知识模型，专门用于阿拉伯语文本中的命名实体识别，支持识别人物、地点、组织等多种实体类型。

模型特点

多类别实体识别

能够识别多达9种不同类型的实体，包括人物、地点、组织等

全新训练数据

基于完全重构的训练数据集构建，数据质量高

高精度识别

在测试集上表现出色，特别是人物识别F1分数达到0.93

模型能力

阿拉伯语文本处理

命名实体识别

文本片段分类

使用案例

新闻分析

新闻事件分析

从新闻文本中提取人物、地点、组织等关键信息

可准确识别如'在开罗体育场，非洲国家杯开幕式在共和国总统和国际足联主席的出席下举行'中的实体

社交媒体分析

社交媒体内容分析

分析阿拉伯语社交媒体内容中的关键实体

🚀 泰比安（Tebyan）

基于全新数据集构建的大型阿拉伯语命名实体识别（NER）模型，可提取多达9种不同类型的实体

模型信息

属性	详情
模型类型	Marefa阿拉伯语命名实体识别模型
训练数据	Marefa-NER

模型展示

版本：1.3

最后更新：2021年12月3日

✨ 主要特性

Marefa-NER 是一个大型阿拉伯语命名实体识别（NER）模型，它基于全新的数据集构建，旨在提取多达9种不同类型的实体：

人物、地点、组织、国籍、职业、产品、事件、时间、艺术作品

这是一个全新的文本部分分类知识模型，特别是在模型训练所使用的数据方面。该模型还旨在对多达9种不同类型的文本部分进行分类：

人物 - 地点 - 组织 - 国籍 - 职业 - 产品 - 事件 - 时间 - 艺术作品

🚀 快速开始

📦 安装指南

安装以下Python包：

$ pip3 install transformers==4.8.0 nltk==3.5 protobuf==3.15.3 torch==1.9.0

⚠️ 重要提示

如果你使用的是 Google Colab，请在安装包后重启运行时。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

import numpy as np
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

custom_labels = ["O", "B-job", "I-job", "B-nationality", "B-person", "I-person", "B-location","B-time", "I-time", "B-event", "I-event", "B-organization", "I-organization", "I-location", "I-nationality", "B-product", "I-product", "B-artwork", "I-artwork"]

def _extract_ner(text: str, model: AutoModelForTokenClassification,
                 tokenizer: AutoTokenizer, start_token: str="▁"):
    tokenized_sentence = tokenizer([text], padding=True, truncation=True, return_tensors="pt")
    tokenized_sentences = tokenized_sentence['input_ids'].numpy()

    with torch.no_grad():
        output = model(**tokenized_sentence)

    last_hidden_states = output[0].numpy()
    label_indices = np.argmax(last_hidden_states[0], axis=1)
    tokens = tokenizer.convert_ids_to_tokens(tokenized_sentences[0])
    special_tags = set(tokenizer.special_tokens_map.values())

    grouped_tokens = []
    for token, label_idx in zip(tokens, label_indices):
        if token not in special_tags:
            if not token.startswith(start_token) and len(token.replace(start_token,"").strip()) > 0:
                grouped_tokens[-1]["token"] += token
            else:
                grouped_tokens.append({"token": token, "label": custom_labels[label_idx]})

    # extract entities
    ents = []
    prev_label = "O"
    for token in grouped_tokens:
        label = token["label"].replace("I-","").replace("B-","")
        if token["label"] != "O":
            
            if label != prev_label:
                ents.append({"token": [token["token"]], "label": label})
            else:
                ents[-1]["token"].append(token["token"])
            
        prev_label = label
    
    # group tokens
    ents = [{"token": "".join(rec["token"]).replace(start_token," ").strip(), "label": rec["label"]}  for rec in ents ]

    return ents

model_cp = "marefa-nlp/marefa-ner"

tokenizer = AutoTokenizer.from_pretrained(model_cp)
model = AutoModelForTokenClassification.from_pretrained(model_cp, num_labels=len(custom_labels))

samples = [
    "تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م. تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده",
    "بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته",
    "في استاد القاهرة، قام حفل افتتاح بطولة كأس الأمم الأفريقية بحضور رئيس الجمهورية و رئيس الاتحاد الدولي لكرة القدم",
    "من فضلك أرسل هذا البريد الى صديقي جلال الدين في تمام الساعة الخامسة صباحا في يوم الثلاثاء القادم",
    "امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في غياب الدون كرستيانو رونالدو",
    "لا تنسى تصحيني الساعة سبعة, و ضيف في الجدول اني احضر مباراة نادي النصر غدا",
]

# [optional]
samples = [ " ".join(word_tokenize(sample.strip())) for sample in samples if sample.strip() != "" ]

for sample in samples:
    ents = _extract_ner(text=sample, model=model, tokenizer=tokenizer, start_token="▁")

    print(sample)
    for ent in ents:
        print("\t",ent["token"],"==>",ent["label"])
    print("========\n")

输出示例

تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م . تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده
	 الأزهر ==> organization
	 عام 1873م ==> time
	 السيد جمال الدين الأفغاني ==> person
	 محمد عبده ==> person
========

بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته
	 القاهرة، ==> location
	 نجيب الريحاني ==> person
	 فرقة جورج أبيض، ==> organization
	 فرقة سلامة حجازي ==> organization
========

في استاد القاهرة، قام حفل افتتاح بطولة كأس الأمم الأفريقية بحضور رئيس الجمهورية و رئيس الاتحاد الدولي لكرة القدم
	 استاد القاهرة، ==> location
	 بطولة كأس الأمم الأفريقية ==> event
	 رئيس الجمهورية ==> job
	 رئيس ==> job
	 الاتحاد الدولي لكرة القدم ==> organization
========

من فضلك أرسل هذا البريد الى صديقي جلال الدين في تمام الساعة الخامسة صباحا في يوم الثلاثاء القادم
	 جلال الدين ==> person
	 الساعة الخامسة صباحا ==> time
	 يوم الثلاثاء القادم ==> time
========

امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في غياب الدون كرستيانو رونالدو
	 مانشستر يونايتد ==> organization
	 ريال مدريد ==> organization
	 كرستيانو رونالدو ==> person
========

لا تنسى تصحيني الساعة سبعة , و ضيف في الجدول اني احضر مباراة نادي النصر غدا
	 الساعة سبعة ==> time
	 نادي النصر ==> organization
	 غدا ==> time
========

模型微调

你可以查看这个笔记本来对NER模型进行微调。

模型评估

我们在包含1959个句子的测试集上对模型进行了测试，结果如下表所示：

类型	F1分数	精确率	召回率	样本数
人物	0.93298	0.931479	0.934487	4335
地点	0.891537	0.896926	0.886212	4939
时间	0.873003	0.876087	0.869941	1853
国籍	0.871246	0.843153	0.901277	2350
职业	0.837656	0.79912	0.880097	2477
组织	0.781317	0.773328	0.789474	2299
事件	0.686695	0.733945	0.645161	744
艺术作品	0.653552	0.678005	0.630802	474
产品	0.625483	0.553531	0.718935	338
加权平均	0.859008	0.852365	0.86703	19809
微观平均	0.858771	0.850669	0.86703	19809
宏观平均	0.79483	0.787286	0.806265	19809