bert-fa-zwnj-base-ner开源模型 - 免费部署支持波斯语10类实体识别

首页

Bert Fa Zwnj Base Ner

由 HooshvareLab 开发

针对波斯语命名实体识别（NER）任务微调的BERT模型，支持10类实体识别

序列标注其他#波斯语实体识别 #多源数据训练 #十类实体标注

下载量 6,189

发布时间 : 3/2/2022

模型简介

该模型基于BERT架构，针对波斯语命名实体识别任务进行了微调，能够识别日期、事件、设施、地点、金额、组织、百分比、人物、产品和时间等十类实体。

模型特点

多源数据集训练

整合了ARMAN、PEYMA和WikiANN三个波斯语NER数据集进行训练

十类实体识别

支持日期、事件、设施、地点、金额、组织、百分比、人物、产品和时间等十类实体的识别

高精度表现

在测试集上整体F1值达到0.957，多数实体类别的F1值超过0.95

模型能力

波斯语文本处理

命名实体识别

实体分类

使用案例

文本分析

新闻实体提取

从波斯语新闻中提取人物、组织、地点等关键实体

准确识别新闻中的关键信息

金融文档分析

分析波斯语金融文档中的金额、百分比等实体

辅助金融数据提取和分析

信息检索

知识图谱构建

从波斯语文本中提取实体用于构建知识图谱

提高知识图谱构建效率

🚀 BertNER

BertNER 是一个针对命名实体识别（NER）任务进行微调的模型。它在一个混合 NER 数据集上进行训练，该数据集收集自 ARMAN、PEYMA 和 WikiANN，涵盖了十种类型的实体：

日期（DAT）
事件（EVE）
设施（FAC）
地点（LOC）
货币（MON）
组织（ORG）
百分比（PCT）
人物（PER）
产品（PRO）
时间（TIM）

📚 数据集信息

数据集	记录数	B - DAT	B - EVE	B - FAC	B - LOC	B - MON	B - ORG	B - PCT	B - PER	B - PRO	B - TIM	I - DAT	I - EVE	I - FAC	I - LOC	I - MON	I - ORG	I - PCT	I - PER	I - PRO	I - TIM
训练集	29133	1423	1487	1400	13919	417	15926	355	12347	1855	150	1947	5018	2421	4118	1059	19579	573	7699	1914	332
验证集	5142	267	253	250	2362	100	2651	64	2173	317	19	373	799	387	717	270	3260	101	1382	303	35
测试集	6049	407	256	248	2886	98	3216	94	2646	318	43	568	888	408	858	263	3967	141	1707	296	78

📊 评估结果

以下表格总结了模型在整体和每个类别上的得分。

整体评估

模型	准确率	精确率	召回率	F1 值
Bert	0.995086	0.953454	0.961113	0.957268

各实体评估

实体	数量	精确率	召回率	F1 值
DAT	407	0.860636	0.864865	0.862745
EVE	256	0.969582	0.996094	0.982659
FAC	248	0.976190	0.991935	0.984000
LOC	2884	0.970232	0.971914	0.971072
MON	98	0.905263	0.877551	0.891192
ORG	3216	0.939125	0.954602	0.946800
PCT	94	1.000000	0.968085	0.983784
PER	2645	0.965244	0.965974	0.965608
PRO	318	0.981481	1.000000	0.990654
TIM	43	0.692308	0.837209	0.757895

💻 使用示例

你可以使用 Transformers 管道进行命名实体识别来使用此模型。

安装依赖

pip install transformers

使用管道进行预测

from transformers import AutoTokenizer
from transformers import AutoModelForTokenClassification  # for pytorch
from transformers import TFAutoModelForTokenClassification  # for tensorflow
from transformers import pipeline


model_name_or_path = "HooshvareLab/bert-fa-zwnj-base-ner" 
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path)  # Pytorch
# model = TFAutoModelForTokenClassification.from_pretrained(model_name_or_path)  # Tensorflow

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "در سال ۲۰۱۳ درگذشت و آندرتیکر و کین برای او مراسم یادبود گرفتند."

ner_results = nlp(example)
print(ner_results)