bert-base-parsbert-ner-uncased开源模型 - 免费部署助力波斯语命名实体识别

首页

Bert Base Parsbert Ner Uncased

由 HooshvareLab 开发

基于Transformer架构的波斯语理解模型，专为波斯语命名实体识别(NER)任务优化

序列标注其他开源协议:Apache-2.0 #波斯语NER #全词掩码训练 #高精度实体识别

下载量 6,130

发布时间 : 3/2/2022

模型简介

ParsBERT是基于BERT架构的单语种波斯语模型，在ARMAN和PEYMA等波斯语NER数据集上表现出色，支持7类实体识别

模型特点

全词掩码训练

采用全词掩码(Whole Word Masking)技术提升波斯语实体识别效果

双数据集支持

同时支持PEYMA和ARMAN两大波斯语NER基准数据集

SOTA性能

在PEYMA数据集上达到98.79 F1分数，显著优于其他波斯语NER模型

模型能力

波斯语文本实体识别

机构名称检测

地理名称识别

人名提取

时间/日期识别

货币/百分比检测

使用案例

信息提取

新闻文本分析

从波斯语新闻中自动提取人名、组织机构等关键实体

在ARMAN数据集上达到93.10 F1分数

商业智能

金融文档处理

识别波斯语财务报告中的货币金额和百分比数据

PEYMA数据集中货币识别准确率超过90%

🚀 ParsBERT：基于Transformer的波斯语理解模型

ParsBERT是一个基于谷歌BERT架构的单语言模型，其配置与BERT - Base相同。

介绍ParsBERT的论文：arXiv:2005.12515

所有模型（下游任务）均不区分大小写，并使用全词掩码进行训练。（即将推出，敬请关注）

🚀 快速开始

波斯语命名实体识别（NER）[ARMAN、PEYMA、ARMAN + PEYMA]

此任务旨在提取文本中的命名实体，如姓名，并使用适当的NER类别（如地点、组织等）进行标注。用于此任务的数据集包含以IOB格式标记的句子。在这种格式中，不属于实体的标记被标记为”O”，”B”标记对应对象的第一个单词，”I”标记对应同一实体的其余术语。”B”和”I”标记后面都跟着一个连字符（或下划线），然后是实体类别。因此，NER任务是一个多类标记分类问题，在输入原始文本时对标记进行标注。波斯语NER主要使用两个数据集，即ARMAN和PEYMA。在ParsBERT中，我们为这两个数据集以及它们的组合都准备了NER。

PEYMA

PEYMA数据集包含7145个句子，总共302530个标记，其中41148个标记被标记为七个不同的类别。

组织
货币
地点
日期
时间
人物
百分比

标签	数量
组织	16964
货币	2037
地点	8782
日期	4259
时间	732
人物	7675
百分比	699

下载地址 你可以从这里下载该数据集。

ARMAN

ARMAN数据集包含7682个句子，250015个标记，标记为六个不同的类别。

组织
地点
设施
事件
产品
人物

标签	数量
组织	30108
地点	12924
设施	4458
事件	7557
产品	4389
人物	15645

下载地址 你可以从这里下载该数据集。

📚 详细文档

结果

以下表格总结了ParsBERT与其他模型和架构相比所获得的F1分数。

数据集	ParsBERT	MorphoBERT	Beheshti - NER	LSTM - CRF	基于规则的CRF	BiLSTM - CRF
ARMAN + PEYMA	95.13*	-	-	-	-	-
PEYMA	98.79*	-	90.59	-	84.00	-
ARMAN	93.10*	89.9	84.03	86.55	-	77.45

如何使用 :hugs:

笔记本	描述
如何使用Pipelines	通过transformers在下游任务中使用最先进模型的简单高效方法

引用

如果您在研究中使用ParsBERT，请在您的出版物中引用以下论文：

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}