语言: fa
DistilbertNER
该模型针对命名实体识别(NER)任务进行了微调,使用的混合NER数据集来自ARMAN、PEYMA和WikiANN,涵盖了十种实体类型:
- 日期(DAT)
- 事件(EVE)
- 设施(FAC)
- 地点(LOC)
- 货币(MON)
- 组织(ORG)
- 百分比(PCT)
- 人物(PER)
- 产品(PRO)
- 时间(TIM)
数据集信息
|
记录数 |
B-DAT |
B-EVE |
B-FAC |
B-LOC |
B-MON |
B-ORG |
B-PCT |
B-PER |
B-PRO |
B-TIM |
I-DAT |
I-EVE |
I-FAC |
I-LOC |
I-MON |
I-ORG |
I-PCT |
I-PER |
I-PRO |
I-TIM |
训练集 |
29133 |
1423 |
1487 |
1400 |
13919 |
417 |
15926 |
355 |
12347 |
1855 |
150 |
1947 |
5018 |
2421 |
4118 |
1059 |
19579 |
573 |
7699 |
1914 |
332 |
验证集 |
5142 |
267 |
253 |
250 |
2362 |
100 |
2651 |
64 |
2173 |
317 |
19 |
373 |
799 |
387 |
717 |
270 |
3260 |
101 |
1382 |
303 |
35 |
测试集 |
6049 |
407 |
256 |
248 |
2886 |
98 |
3216 |
94 |
2646 |
318 |
43 |
568 |
888 |
408 |
858 |
263 |
3967 |
141 |
1707 |
296 |
78 |
评估结果
以下表格总结了模型整体及各类别的得分情况。
整体表现
模型 |
准确率 |
精确率 |
召回率 |
F1分数 |
Distilbert |
0.994534 |
0.946326 |
0.95504 |
0.950663 |
按实体分类
|
数量 |
精确率 |
召回率 |
F1分数 |
DAT |
407 |
0.812048 |
0.828010 |
0.819951 |
EVE |
256 |
0.955056 |
0.996094 |
0.975143 |
FAC |
248 |
0.972549 |
1.000000 |
0.986083 |
LOC |
2884 |
0.968403 |
0.967060 |
0.967731 |
MON |
98 |
0.925532 |
0.887755 |
0.906250 |
ORG |
3216 |
0.932095 |
0.951803 |
0.941846 |
PCT |
94 |
0.936842 |
0.946809 |
0.941799 |
PER |
2645 |
0.959818 |
0.957278 |
0.958546 |
PRO |
318 |
0.963526 |
0.996855 |
0.979907 |
TIM |
43 |
0.760870 |
0.813953 |
0.786517 |
使用方法
您可以通过Transformers的NER管道使用此模型。
安装依赖
pip install transformers
使用管道进行预测
from transformers import AutoTokenizer
from transformers import AutoModelForTokenClassification
from transformers import TFAutoModelForTokenClassification
from transformers import pipeline
model_name_or_path = "HooshvareLab/distilbert-fa-zwnj-base-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "در سال ۲۰۱۳ درگذشت و آندرتیکر و کین برای او مراسم یادبود گرفتند。"
ner_results = nlp(example)
print(ner_results)
问题反馈?
请在ParsNER Issues仓库提交GitHub issue。