缩略图: "https://i.imgur.com/tpI1iT5.jpg"
许可证: cc-by-4.0
语言:
- 葡萄牙语
标签:
- 训练生成
指标:
- 精确率
- 召回率
- F1值
- 准确率
模型索引:
- 名称: 检查点
结果:
- 任务:
名称: 标记分类
类型: token-classification
指标:
- 名称: F1值
类型: f1
值: 0.9525622169191057
- 名称: 精确率
类型: precision
值: 0.9438680702115613
- 名称: 召回率
类型: recall
值: 0.961418019517758
- 名称: 准确率
类型: accuracy
值: 0.9894253721279602
- 名称: 损失
类型: loss
值: 0.030161771923303604
小部件:
- 文本: "法医鉴定机构应在事故或居住地管辖范围内,在90天内向受害者提供报告(1974年12月19日第6.194/74号法律第5条第5款),这一技术职能可通过法院命令进行的专家证据或行政范围内进行的技术证据来补充,这些证据应与案件记录中的其他证据要素一致。"
- 文本: "补充说明,不应提及违反《联邦宪法》第114条第3款的问题,因为该条款在此情况下不适用,它涉及劳动检察院在基本服务罢工情况下提起集体争议的可能性。"
- 文本: "规定学生实习事宜;修改1943年5月1日第5.452号法令批准的《劳动法整合》第428条及1996年12月20日第9.394号法律的措辞;废除1977年12月7日第6.494号法律、1994年3月23日第8.859号法律、1996年12月20日第9.394号法律第82条唯一段落及2001年8月24日第2.164-41号临时措施第6条;并作出其他规定。"
(BERT基础版) 葡萄牙语法律领域NER模型
自述文件正在建设中
ner-legal-bert-base-cased-ptbr 是一个葡萄牙语法律领域的NER模型(标记分类),通过使用NER目标对模型dominguesm/legal-bert-base-cased-ptbr进行微调而得。
该模型旨在协助法律领域的NLP研究、计算机法律及法律技术应用。使用了多个葡萄牙语法律文本(更多信息见下文)并标注了以下标签:
这些标签的灵感来源于LeNER_br数据集。
训练数据集
ner-legal-bert-base-cased-ptbr的数据集包括:
- 971932个各类法律文件的示例(训练集)
- 53996个各类法律文件的示例(验证集)
- 53997个各类法律文件的示例(测试集)
所用数据由巴西联邦最高法院根据使用条款提供:LREC 2020。
本项目的成果绝不代表巴西联邦最高法院的立场,所有责任均由模型作者独自承担。
在生产环境中使用模型进行推理
from transformers import AutoModelForTokenClassification, AutoTokenizer
import torch
model_name = "dominguesm/ner-legal-bert-base-cased-ptbr"
model = AutoModelForTokenClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
input_text = "补充说明,不应提及违反《联邦宪法》第114条第3款的问题,因为该条款在此情况下不适用,它涉及劳动检察院在基本服务罢工情况下提起集体争议的可能性。"
inputs = tokenizer(input_text, max_length=512, truncation=True, return_tensors="pt")
tokens = inputs.tokens()
outputs = model(**inputs).logits
predictions = torch.argmax(outputs, dim=2)
for token, prediction in zip(tokens, predictions[0].numpy()):
print((token, model.config.id2label[prediction]))
你也可以使用pipeline。不过,它似乎存在输入序列最大长度的问题。
from transformers import pipeline
model_name = "dominguesm/ner-legal-bert-base-cased-ptbr"
ner = pipeline(
"ner",
model=model_name
)
ner(input_text, aggregation_strategy="average")
训练过程
超参数
批次、学习率等...
- 每设备批次大小 = 64
- 梯度累积步数 = 2
- 学习率 = 2e-5
- 训练轮数 = 3
- 权重衰减 = 0.01
- 优化器 = torch.optim.AdamW
- 小量 = 1e-08
- 学习率调度器类型 = 线性
保存模型及加载最佳模型
- 保存总数限制 = 3
- 日志步数 = 1000
- 评估步数 = 日志步数
- 评估策略 = '步数'
- 日志策略 = '步数'
- 保存策略 = '步数'
- 保存步数 = 日志步数
- 结束时加载最佳模型 = True
- 半精度 = True
训练结果
样本数 = 971932
训练轮数 = 3
每设备即时批次大小 = 64
总训练批次大小(含并行、分布式及累积) = 128
梯度累积步数 = 2
总优化步数 = 22779
评估信息:
样本数 = 53996
批次大小 = 128
步数 |
训练损失 |
验证损失 |
精确率 |
召回率 |
F1值 准确率 |
1000 |
0.113900 |
0.057008 |
0.898600 |
0.938444 |
0.918090 |
2000 |
0.052800 |
0.048254 |
0.917243 |
0.941188 |
0.929062 |
3000 |
0.046200 |
0.043833 |
0.919706 |
0.948411 |
0.933838 |
4000 |
0.043500 |
0.039796 |
0.928439 |
0.947058 |
0.937656 |
5000 |
0.041400 |
0.039421 |
0.926103 |
0.952857 |
0.939290 |
6000 |
0.039700 |
0.038599 |
0.922376 |
0.956257 |
0.939011 |
7000 |
0.037800 |
0.036463 |
0.935125 |
0.950937 |
0.942964 |
8000 |
0.035900 |
0.035706 |
0.934638 |
0.954147 |
0.944292 |
9000 |
0.033800 |
0.034518 |
0.940354 |
0.951991 |
0.946136 |
10000 |
0.033600 |
0.033454 |
0.938170 |
0.956097 |
0.947049 |
11000 |
0.032700 |
0.032899 |
0.934130 |
0.959491 |
0.946641 |
12000 |
0.032200 |
0.032477 |
0.937400 |
0.959150 |
0.948151 |
13000 |
0.031200 |
0.033207 |
0.937058 |
0.960506 |
0.948637 |
14000 |
0.031400 |
0.031711 |
0.938765 |
0.959711 |
0.949123 |
15000 |
0.030600 |
0.031519 |
0.940488 |
0.959413 |
0.949856 |
16000 |
0.028500 |
0.031618 |
0.943643 |
0.957693 |
0.950616 |
17000 |
0.028000 |
0.031106 |
0.941109 |
0.960687 |
0.950797 |
18000 |
0.027800 |
0.030712 |
0.942821 |
0.960528 |
0.951592 |
19000 |
0.027500 |
0.030523 |
0.942950 |
0.960947 |
0.951864 |
20000 |
0.027400 |
0.030577 |
0.942462 |
0.961754 |
0.952010 |
21000 |
0.027000 |
0.030025 |
0.944483 |
0.960497 |
0.952422 |
22000 |
0.026800 |
0.030162 |
0.943868 |
0.961418 |
0.952562 |
测试数据集按命名实体验证指标
- 样本数 = 53997
整体精确率
: 0.9432396865925381
整体召回率
: 0.9614334116769161
整体F1值
: 0.9522496545298874
整体准确率
': 0.9894741602608071
标签 |
精确率 |
召回率 |
F1值 准确率 |
实体示例 |
判例 |
0.8795197115548148 |
0.9037275221501844 |
0.8914593047810311 |
57223 |
立法 |
0.9405395935529082 |
0.9514071028567378 |
0.9459421362370934 |
84642 |
地点 |
0.9011495452253004 |
0.9132358124779697 |
0.9071524233856495 |
56740 |
组织 |
0.9239028155165304 |
0.954964947845235 |
0.9391771163875446 |
183013 |
人物 |
0.9651685220572037 |
0.9738545198908279 |
0.9694920661875761 |
193456 |
时间 |
0.973704616066295 |
0.9918808401799004 |
0.9827086882453152 |
186103 |
备注
- 在制作本
自述文件
时,我以Pierre Guillou编写的自述文件
(可在此处找到here)为基础,完全复制了部分内容。