语言:
- 阿拉伯语
- 英语
许可协议: Apache-2.0
数据集:
- AQMAR
- ANERcorp
缩略图: https://www.informatik.hu-berlin.de/en/forschung-en/gebiete/ml-en/resolveuid/a6f82e0d7fa446a59c902cac4cafa9cb/@@images/image/preview
标签:
- flair
- 文本分类
- 标记分类
- 序列标注模型
评估指标:
- F1值
示例输入:
- 文本: "أعرف كل شيء عن جيجي"
- 文本: "ترتقي شريحة M1 Pro وشريحة M1 Max ببنية شريحة M1 المذهلة إلى مستويات جديدة، إذ تأتيان للمرة الأولى ببنية نظام متكامل في شريحة (SoC) إلى جهاز نوت بوك للمحترفين。"
- 文本: "اختارها خيري بشارة كممثلة، دون سابقة معرفة أو تجربة تمثيلية، لتقف بجانب فاتن حمامة في فيلم «يوم مر ويوم حلو» (1988) وهي ما زالت شابة لم تتخطَ عامها الثاني"
基于Flair嵌入的阿拉伯语命名实体识别模型
模型经过94轮训练,采用线性衰减学习率2e-05(初始值0.225),批量大小为32,结合了GloVe和Flair双向嵌入。
原始数据集:
性能结果:
- 微平均F1值 0.8666
- 宏平均F1值 0.8488
|
命名实体类型 |
真正例 |
假正例 |
假反例 |
精确率 |
召回率 |
类别F1 |
LOC |
地点 |
539 |
51 |
68 |
0.9136 |
0.8880 |
0.9006 |
MISC |
其他类 |
408 |
57 |
89 |
0.8774 |
0.8209 |
0.8482 |
ORG |
组织机构 |
167 |
43 |
64 |
0.7952 |
0.7229 |
0.7574 |
PER |
人物(无头衔) |
501 |
65 |
60 |
0.8852 |
0.8930 |
0.8891 |
使用方式
from flair.data import Sentence
from flair.models import SequenceTagger
import pyarabic.araby as araby
from icecream import ic
tagger = SequenceTagger.load("julien-c/flair-ner")
arTagger = SequenceTagger.load('megantosh/flair-arabic-multi-ner')
sentence = Sentence('George Washington went to Washington .')
arSentence = Sentence('عمرو عادلي أستاذ للاقتصاد السياسي المساعد في الجامعة الأمريكية بالقاهرة .')
tagger.predict(sentence)
arTagger.predict(arSentence)
ic(sentence.to_tagged_string)
ic(arSentence.to_tagged_string)
示例输出
2021-07-07 14:30:59,649 加载模型文件路径...
2021-07-07 14:31:04,654 加载阿拉伯语模型文件...
ic| 英文标注结果: "George <B-PER> Washington <E-PER> went to Washington <S-LOC> ."
ic| 阿拉伯语标注结果: "عمرو <B-PER> عادلي <I-PER> ... الجامعة <B-ORG> الأمريكية <I-ORG> بالقاهرة <B-LOC> ."
ic| 实体识别结果:
<PER-span (1,2): "George Washington">
<LOC-span (5): "Washington">
<PER-span (1,2): "عمرو عادلي">
<ORG-span (8,9): "الجامعة الأمريكية">
<LOC-span (10): "بالقاهرة">
模型架构
SequenceTagger(
(embeddings): 堆叠嵌入层(
(list_embedding_0): GloVe词嵌入
(list_embedding_1): Flair前向语言模型
(list_embedding_2): Flair后向语言模型
)
(word_dropout): 单词丢弃层(p=0.05)
(locked_dropout): 锁定丢弃层(p=0.5)
(双向LSTM): LSTM(4196→256)
(输出层): Linear(512→15)
)
注意:由于阿拉伯语从右向左的书写特性,可能会出现格式显示问题。
引用文献
若使用本模型,请引用:
@unpublished{MMHU21
author = "M. Megahed",
title = "多方言环境下的序列标注架构研究——以阿拉伯语及其方言为例",
year = {2021},
doi = "10.13140/RG.2.2.34961.10084"
url = {https://www.researchgate.net/publication/358956953_多方言序列标注架构研究}
}