语言:
- 斯洛伐克语(sk)
许可证: mit
标签:
- 训练生成
数据集:
- wikiann
评估指标:
- 精确率
- 召回率
- F1值
- 准确率
推理: 关闭
示例窗口:
- 文本: "Zuzana Čaputová sa narodila 21. júna 1973 v Bratislave."
示例标题: 命名实体识别
基础模型: gerulata/slovakbert
模型索引:
- 名称: slovakbert-ner
结果:
- 任务:
类型: 词元分类
名称: 词元分类
数据集:
名称: wikiann
类型: wikiann
参数: sk
指标:
- 类型: 精确率
值: 0.9327115256495669
名称: 精确率
- 类型: 召回率
值: 0.9470124013528749
名称: 召回率
- 类型: F1值
值: 0.9398075632132469
名称: F1值
- 类型: 准确率
值: 0.9785228256835333
名称: 准确率
基于SlovakBERT的命名实体识别模型
本模型是基于gerulata/slovakbert在斯洛伐克wikiann数据集上微调的版本。在评估集上取得如下结果:
- 损失值: 0.1600
- 精确率: 0.9327
- 召回率: 0.9470
- F1值: 0.9398
- 准确率: 0.9785
使用场景与限制
支持的实体类别:地理位置(LOCATION)、人物(PERSON)、组织机构(ORGANIZATION)
使用示例:
from transformers import pipeline
ner_pipeline = pipeline(task='ner', model='crabz/slovakbert-ner')
input_sentence = "Minister financií a líder mandátovo najsilnejšieho hnutia OĽaNO Igor Matovič upozorňuje, že následky tretej vlny budú na Slovensku veľmi veľké."
classifications = ner_pipeline(input_sentence)
配合displaCy
可视化:
import spacy
from spacy import displacy
ner_map = {0: '0', 1: 'B-人物', 2: 'I-人物', 3: 'B-组织', 4: 'I-组织', 5: 'B-地点', 6: 'I-地点'}
entities = []
for i in range(len(classifications)):
if classifications[i]['entity'] != 0:
if ner_map[classifications[i]['entity']][0] == 'B':
j = i + 1
while j < len(classifications) and ner_map[classifications[j]['entity']][0] == 'I':
j += 1
entities.append((ner_map[classifications[i]['entity']].split('-')[1], classifications[i]['start'],
classifications[j - 1]['end']))
nlp = spacy.blank("en")
doc = nlp(input_sentence)
ents = []
for ee in entities:
ents.append(doc.char_span(ee[1], ee[2], ee[0]))
doc.ents = ents
options = {"ents": ["人物", "组织", "地点"],
"colors": {"人物": "浅蓝", "组织": "浅珊瑚色", "地点": "浅绿色"}}
displacy_html = displacy.render(doc, style="ent", options=options)
可视化效果:
财政部长兼议会最强运动
普通人党(OĽaNO)
组织
伊戈尔·马托维奇
人物
警告称,第三波疫情将在
斯洛伐克
地点
造成非常严重的后果。
训练过程
训练超参数
训练使用的超参数配置:
- 学习率: 5e-05
- 训练批大小: 32
- 评估批大小: 8
- 随机种子: 42
- 优化器: Adam (β1=0.9, β2=0.999, ε=1e-08)
- 学习率调度器类型: 线性
- 训练轮数: 15.0
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
0.2342 |
1.0 |
625 |
0.1233 |
0.8891 |
0.9076 |
0.8982 |
0.9667 |
0.1114 |
2.0 |
1250 |
0.1079 |
0.9118 |
0.9269 |
0.9193 |
0.9725 |
0.0817 |
3.0 |
1875 |
0.1093 |
0.9173 |
0.9315 |
0.9243 |
0.9747 |
0.0438 |
4.0 |
2500 |
0.1076 |
0.9188 |
0.9353 |
0.9270 |
0.9743 |
0.028 |
5.0 |
3125 |
0.1230 |
0.9143 |
0.9387 |
0.9264 |
0.9744 |
0.0256 |
6.0 |
3750 |
0.1204 |
0.9246 |
0.9423 |
0.9334 |
0.9765 |
0.018 |
7.0 |
4375 |
0.1332 |
0.9292 |
0.9416 |
0.9353 |
0.9770 |
0.0107 |
8.0 |
5000 |
0.1339 |
0.9280 |
0.9427 |
0.9353 |
0.9769 |
0.0079 |
9.0 |
5625 |
0.1368 |
0.9326 |
0.9442 |
0.9383 |
0.9785 |
0.0065 |
10.0 |
6250 |
0.1490 |
0.9284 |
0.9445 |
0.9364 |
0.9772 |
0.0061 |
11.0 |
6875 |
0.1566 |
0.9328 |
0.9433 |
0.9380 |
0.9778 |
0.0031 |
12.0 |
7500 |
0.1555 |
0.9339 |
0.9473 |
0.9406 |
0.9787 |
0.0024 |
13.0 |
8125 |
0.1548 |
0.9349 |
0.9462 |
0.9405 |
0.9787 |
0.0015 |
14.0 |
8750 |
0.1562 |
0.9330 |
0.9469 |
0.9399 |
0.9788 |
0.0013 |
15.0 |
9375 |
0.1600 |
0.9327 |
0.9470 |
0.9398 |
0.9785 |
框架版本
- Transformers 4.13.0.dev0
- PyTorch 1.10.0+cu113
- Datasets 1.15.1
- Tokenizers 0.10.3