标签:
- 训练生成
指标:
- 精确率
- 召回率
- F1值
- 准确率
模型索引:
- 名称: KoELECTRA-small-v3-modu-ner
结果: []
语言:
- 韩语
管道标签: 令牌分类
小部件:
- 文本: "请带我去首尔站。"
示例标题: "示例1"
- 文本: "把空调温度调高3度。"
示例标题: "示例2"
- 文本: "搜索IU的歌曲。"
示例标题: "示例3"
KoELECTRA-small-v3-modu-ner
该模型是基于monologg/koelectra-small-v3-discriminator在未知数据集上微调的版本。
在评估集上取得了以下结果:
- 损失: 0.1431
- 精确率: 0.8232
- 召回率: 0.8449
- F1值: 0.8339
- 准确率: 0.9628
模型描述
标注系统: BIO系统
- B-(开始): 实体名称开始时
- I-(内部): 标记位于实体名称中间时
- O(外部): 标记不属于实体名称时
遵循韩国信息通信技术协会(TTA)大类标准的15种标签集
分类 |
标记 |
定义 |
人工制品 |
AF |
人类创造的人工物品,包括文物、建筑、乐器、道路、武器、交通工具、作品名称、工业品名称等 |
动物 |
AM |
除人类以外的动物 |
文明 |
CV |
文明/文化 |
日期 |
DT |
时间段及季节、时期/时代 |
事件 |
EV |
特定事件/事故/活动名称 |
研究领域 |
FD |
学术领域、学派及流派 |
地点 |
LC |
区域/场所和地形/地理名称等 |
材料 |
MT |
元素及金属、岩石/宝石、化学物质 |
组织 |
OG |
机构及团体名称 |
人物 |
PS |
人名及人物的别称(包括类似人物的名称) |
植物 |
PT |
花/树、陆地植物、海藻类、蘑菇类、苔藓类 |
数量 |
QT |
数量/分量、顺序/序列、由数字组成的表达 |
时间 |
TI |
时钟上显示的时间/时刻、时间范围 |
术语 |
TM |
其他实体名称中定义的详细实体名称之外的实体名称 |
理论 |
TR |
特定理论、法则原理等 |
预期用途与限制
使用方法
您可以使用Transformers的pipeline进行NER任务。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer)
example = "请带我去首尔站。"
ner_results = ner(example)
print(ner_results)
训练与评估数据
命名实体识别(NER)模型训练数据集
- 文化体育观光部 > 国立国语院 > 所有人的语料库 > 命名实体分析语料库 2021
- https://corpus.korean.go.kr/request/reausetMain.do
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率: 5e-05
- 训练批次大小: 64
- 评估批次大小: 64
- 随机种子: 42
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 15151
- 训练轮数: 20
- 混合精度训练: Native AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
无记录 |
1.0 |
3788 |
0.3978 |
0.5986 |
0.5471 |
0.5717 |
0.9087 |
无记录 |
2.0 |
7576 |
0.2319 |
0.6986 |
0.6953 |
0.6969 |
0.9345 |
无记录 |
3.0 |
11364 |
0.1838 |
0.7363 |
0.7612 |
0.7486 |
0.9444 |
无记录 |
4.0 |
15152 |
0.1610 |
0.7762 |
0.7745 |
0.7754 |
0.9509 |
无记录 |
5.0 |
18940 |
0.1475 |
0.7862 |
0.8011 |
0.7936 |
0.9545 |
无记录 |
6.0 |
22728 |
0.1417 |
0.7857 |
0.8181 |
0.8016 |
0.9563 |
无记录 |
7.0 |
26516 |
0.1366 |
0.8022 |
0.8196 |
0.8108 |
0.9584 |
无记录 |
8.0 |
30304 |
0.1346 |
0.8093 |
0.8236 |
0.8164 |
0.9596 |
无记录 |
9.0 |
34092 |
0.1328 |
0.8085 |
0.8299 |
0.8190 |
0.9602 |
无记录 |
10.0 |
37880 |
0.1332 |
0.8110 |
0.8368 |
0.8237 |
0.9608 |
无记录 |
11.0 |
41668 |
0.1323 |
0.8157 |
0.8347 |
0.8251 |
0.9612 |
无记录 |
12.0 |
45456 |
0.1353 |
0.8118 |
0.8402 |
0.8258 |
0.9611 |
无记录 |
13.0 |
49244 |
0.1370 |
0.8152 |
0.8416 |
0.8282 |
0.9616 |
无记录 |
14.0 |
53032 |
0.1368 |
0.8164 |
0.8415 |
0.8287 |
0.9616 |
无记录 |
15.0 |
56820 |
0.1378 |
0.8187 |
0.8438 |
0.8310 |
0.9621 |
无记录 |
16.0 |
60608 |
0.1389 |
0.8217 |
0.8438 |
0.8326 |
0.9626 |
无记录 |
17.0 |
64396 |
0.1380 |
0.8266 |
0.8426 |
0.8345 |
0.9631 |
无记录 |
18.0 |
68184 |
0.1428 |
0.8216 |
0.8445 |
0.8329 |
0.9625 |
无记录 |
19.0 |
71972 |
0.1431 |
0.8232 |
0.8455 |
0.8342 |
0.9628 |
0.1712 |
20.0 |
75760 |
0.1431 |
0.8232 |
0.8449 |
0.8339 |
0.9628 |
框架版本
- Transformers 4.27.4
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.3