EstBERT_NER_v2开源模型 - 免费部署精准识别爱沙尼亚语文本命名实体

首页

Estbert NER V2

由 tartuNLP 开发

该模型是在爱沙尼亚语NER数据集上对EstBERT进行微调的版本，用于识别爱沙尼亚语文本中的命名实体。

序列标注

Transformers

其他#爱沙尼亚语NER #地理政治实体识别 #人物名称识别

下载量 172

发布时间 : 5/3/2022

模型简介

由塔尔图大学计算机科学研究所的NLP研究小组tartuNLP训练完成的命名实体识别模型，专门用于处理爱沙尼亚语文本。

模型特点

高精度实体识别

在测试集上整体F1分数达到0.7678，特别是在人物识别方面F1值高达0.8642

广泛实体覆盖

支持识别11种不同类型的实体，包括日期、地点、组织、人物等

基于EstBERT优化

基于专门针对爱沙尼亚语优化的EstBERT模型进行微调

模型能力

爱沙尼亚语文本处理

命名实体识别

多类别实体分类

使用案例

信息提取

新闻人物识别

从爱沙尼亚语新闻中识别提及的人物姓名

人物识别F1值0.8642

地理政治实体提取

识别文本中的国家、城市等地理政治实体

地理政治实体F1值0.8521

文本分析

商业文档处理

从商业文档中提取组织名称和产品信息

组织识别F1值0.7005，产品识别F1值0.5714

🚀 基于EstBERT的爱沙尼亚语命名实体识别模型

该模型是 tartuNLP/EstBERT 在爱沙尼亚语命名实体识别（NER）数据集上的微调版本。它由塔尔图大学计算机科学研究所的自然语言处理研究小组tartuNLP训练。该模型可用于从爱沙尼亚语文本中识别命名实体，且任何人都可免费使用。

✨ 主要特性

高性能：在测试集上取得了良好的性能指标，如损失为 0.3565，准确率达到 0.9672。
多实体类型识别：能够识别多种实体类型，包括日期、事件、地理政治实体等。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库的官方文档进行安装，如 transformers 库。

💻 使用示例

基础用法

你可以使用 Transformers 库的 pipeline 进行命名实体识别。由于模型偶尔会将子词标记为实体，因此可能需要对结果进行后处理。

from transformers import BertTokenizer, BertForTokenClassification
from transformers import pipeline

tokenizer = BertTokenizer.from_pretrained('tartuNLP/EstBERT_NER')
bertner = BertForTokenClassification.from_pretrained('tartuNLP/EstBERT_NER')

nlp = pipeline("ner", model=bertner, tokenizer=tokenizer)

text = "Kaia Kanepi (WTA 57.) langes USA-s Charlestonis toimuval WTA 500 kategooria tenniseturniiril konkurentsist kaheksandikfinaalis, kaotades poolatarile Magda Linette'ile (WTA 64.) 3 : 6, 6 : 4, 2 : 6."

ner_results = nlp(text)

tokens=tokenizer(text)
tokens=tokenizer.convert_ids_to_tokens(tokens['input_ids'])


print(f'tokens: {tokens}')
print(f'NER model:{ner_results}')

📚 详细文档

测试集结果

该模型在测试集上取得了以下结果：

损失：0.3565
精确率：0.7612
召回率：0.7744
F1 值：0.7678
准确率：0.9672

实体级别的结果如下：

实体类型	精确率	召回率	F1 值	数量
DATE	0.7278	0.7258	0.7268	372
EVENT	0.3721	0.5714	0.4507	28
GPE	0.8679	0.8369	0.8521	840
LOC	0.6545	0.4832	0.5560	149
MONEY	0.6625	0.6023	0.6310	88
ORG	0.6761	0.7267	0.7005	589
PER	0.8255	0.9068	0.8642	751
PERCENT	1.0	0.9589	0.9790	73
PROD	0.6030	0.5430	0.5714	221
TIME	0.5682	0.5556	0.5618	45
TITLE	0.7	0.8063	0.7494	191

预期用途与限制

该模型可用于从爱沙尼亚语文本中查找命名实体。任何人都可以免费使用该模型，但 tartuNLP 不保证该模型对任何人或任何用途都有用，并且不对其生成的任何结果负责。

训练和评估数据

该模型在两个爱沙尼亚语命名实体识别数据集上进行训练：

两个数据集都使用相同的注释方案进行注释。为了训练该模型，将这些数据集合并。

训练过程

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	1e - 05
训练批次大小	16
评估批次大小	16
随机种子	1024
优化器	Adam（β1 = 0.9，β2 = 0.98，ε = 1e - 06）
学习率调度器类型	多项式
最大训练轮数	150
提前停止限制	20
提前停止容忍度	0.0001
混合精度训练	原生自动混合精度（Native AMP）