针对葡萄牙语法律领域的命名实体识别模型,基于BERT大型架构微调
下载量 259
发布时间 : 3/2/2022
模型介绍
内容详情
替代品
模型简介
该模型是专门针对葡萄牙语法律文本的命名实体识别(NER)模型,在LeNER-Br数据集上微调BERT大型架构得到,能够识别法律文本中的特定实体类型。
模型特点
法律领域专业化
专门针对葡萄牙语法律文本进行优化,能准确识别法律文档中的特定实体
高性能指标
在验证集上达到0.908的F1值,表现优异
两阶段训练
先对语言模型进行法律领域适应训练,再进行NER任务微调
模型能力
法律文本实体识别
葡萄牙语文本处理
令牌分类
使用案例
法律文档处理
法律条款分析
自动识别法律文本中的法规引用、司法判例等实体
准确识别《联邦宪法》条款等法律实体
法律研究辅助
帮助法律研究人员快速定位文档中的关键实体
语言:
- 葡萄牙语(pt) 标签:
- 训练生成 数据集:
- lener_br 评估指标:
- 精确率(precision)
- 召回率(recall)
- F1值(f1)
- 准确率(accuracy) 模型索引:
- 名称: checkpoints
结果:
- 任务:
名称: 令牌分类
类型: token-classification
数据集:
名称: lener_br
类型: lener_br
评估指标:
- 名称: F1 类型: f1 值: 0.9082022949426265
- 名称: 精确率 类型: precision 值: 0.8975220495590088
- 名称: 召回率 类型: recall 值: 0.9191397849462366
- 名称: 准确率 类型: accuracy 值: 0.9808310603867311
- 名称: 损失值 类型: loss 值: 0.1228889599442482 示例输入:
- 任务:
名称: 令牌分类
类型: token-classification
数据集:
名称: lener_br
类型: lener_br
评估指标:
- 文本: "法医鉴定机构应在事故或住所管辖范围内90天内向受害者提供报告(1974年12月19日第6.194/74号法律第5条第5款),这一技术职能可通过法院命令进行的专家证据或行政范围内的技术证据来补充,只要与案卷中的其他证据材料一致即可。"
- 文本: "需补充说明的是,不应提及违反《联邦宪法》第114条第3款的问题,因为该条款在此情况下并不适用,它涉及的是劳动检察院在基本服务行业罢工时提起集体劳动争议的可能性。"
- 文本: "然而,我认为从上述规范中提取出明确表述的含义会解构宪法文本的意义,这是解释者绝对禁止的行为。为此,我引用Dimitri Dimoulis的话:‘解释者不能选择未被规范框架涵盖的含义。解释不能意味着对规范的暴力。’(《法律实证主义》,圣保罗:Método出版社,2006年,第220页)。59. 因此,应将词源意义作为解释活动的界限,解释活动不能超越这一界限以至于破坏待解释的规范本身。或者,正如Konrad Hesse所言,‘规范文本是解释活动不可逾越的界限。’(《德意志联邦共和国宪法要素》,阿雷格里港:Sergio Antonio Fabris出版社,2003年,第71页)。"
(BERT大型) 葡萄牙语法律领域命名实体识别(NER)模型
ner-bert-large-portuguese-cased-lenerbr 是一个针对葡萄牙语法律领域的命名实体识别(令牌分类)模型,该模型于2021年12月20日在Google Colab上通过对模型pierreguillou/bert-large-cased-pt-lenerbr在数据集LeNER_br上进行微调而得到,采用了NER目标。
由于微调数据集规模较小,模型在训练结束前出现了过拟合。以下是验证数据集上的整体最终指标(注:详见“按命名实体划分的验证指标”段落以获取详细指标):
- F1值: 0.9082022949426265
- 精确率: 0.8975220495590088
- 召回率: 0.9191397849462366
- 准确率: 0.9808310603867311
- 损失值: 0.1228889599442482
也可查看该模型的基础版本,其F1值为0.893。
注意:模型pierreguillou/bert-large-cased-pt-lenerbr是一个语言模型,它是通过对模型BERTimbau large在数据集LeNER-Br语言建模上使用MASK目标进行微调而创建的。这种在NER任务前对语言模型进行的专门化处理有助于获得更好的NER模型。
博客文章
NLP | 巴西法律领域命名实体识别(NER)模型与Web应用 (2021年12月29日)
小部件与应用
您可以在本页的小部件中测试此模型。
还可以使用NER应用,该应用允许比较在法律LeNER-Br数据集上拟合的两种BERT模型(基础版和大型版)。
在生产环境中使用模型进行推理
# 安装pytorch: 查看 https://pytorch.org/
# !pip install transformers
from transformers import AutoModelForTokenClassification, AutoTokenizer
import torch
# 参数
model_name = "pierreguillou/ner-bert-large-cased-pt-lenerbr"
model = AutoModelForTokenClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
input_text = "需补充说明的是,不应提及违反《联邦宪法》第114条第3款的问题,因为该条款在此情况下并不适用,它涉及的是劳动检察院在基本服务行业罢工时提起集体劳动争议的可能性。"
# 令牌化
inputs = tokenizer(input_text, max_length=512, truncation=True, return_tensors="pt")
tokens = inputs.tokens()
# 获取预测
outputs = model(**inputs).logits
predictions = torch.argmax(outputs, dim=2)
# 打印预测结果
for token, prediction in zip(tokens, predictions[0].numpy()):
print((token, model.config.id2label[prediction]))
也可以使用pipeline,但似乎存在输入序列最大长度的问题。
!pip install transformers
import transformers
from transformers import pipeline
model_name = "pierreguillou/ner-bert-large-cased-pt-lenerbr"
ner = pipeline(
"ner",
model=model_name
)
ner(input_text)
训练过程
笔记本
微调的笔记本(HuggingFace_Notebook_token_classification_NER_LeNER_Br.ipynb)位于GitHub上。
超参数
批次大小、学习率等...
- 每设备批次大小 = 2
- 梯度累积步数 = 2
- 学习率 = 2e-5
- 训练轮数 = 10
- 权重衰减 = 0.01
- 优化器 = AdamW
- betas = (0.9,0.999)
- epsilon = 1e-08
- 学习率调度器类型 = linear
- 随机种子 = 42
保存模型 & 加载最佳模型
- 保存总数限制 = 7
- 日志步数 = 500
- 评估步数 = 日志步数
- 评估策略 = 'steps'
- 日志策略 = 'steps'
- 保存策略 = 'steps'
- 保存步数 = 日志步数
- 训练结束时加载最佳模型 = True
- 启用混合精度训练(fp16) = True
通过指标选择最佳模型
- 最佳模型指标 = 'eval_f1'
- 指标越大越好 = True
训练结果
样本数量 = 7828
训练轮数 = 20
每设备即时批次大小 = 2
总训练批次大小(含并行、分布式和累积)= 4
梯度累积步数 = 2
总优化步数 = 39140
步数 训练损失 验证损失 精确率 召回率 F1值 准确率
500 0.250000 0.140582 0.760833 0.770323 0.765548 0.963125
1000 0.076200 0.117882 0.829082 0.817849 0.823428 0.966569
1500 0.082400 0.150047 0.679610 0.914624 0.779795 0.957213
2000 0.047500 0.133443 0.817678 0.857419 0.837077 0.969190
2500 0.034200 0.230139 0.895672 0.845591 0.869912 0.964070
3000 0.033800 0.108022 0.859225 0.887312 0.873043 0.973700
3500 0.030100 0.113467 0.855747 0.885376 0.870310 0.975879
4000 0.029900 0.118619 0.850207 0.884946 0.867229 0.974477
4500 0.022500 0.124327 0.841048 0.890968 0.865288 0.975041
5000 0.020200 0.129294 0.801538 0.918925 0.856227 0.968077
5500 0.019700 0.128344 0.814222 0.908602 0.858827 0.969250
6000 0.024600 0.182563 0.908087 0.866882 0.887006 0.968565
6500 0.012600 0.159217 0.829883 0.913763 0.869806 0.969357
7000 0.020600 0.183726 0.854557 0.893333 0.873515 0.966447
7500 0.014400 0.141395 0.777716 0.905161 0.836613 0.966828
8000 0.013400 0.139378 0.873042 0.899140 0.885899 0.975772
8500 0.014700 0.142521 0.864152 0.901505 0.882433 0.976366
9000 0.010900 0.122889 0.897522 0.919140 0.908202 0.980831
9500 0.013500 0.143407 0.816580 0.906667 0.859268 0.973395
10000 0.010400 0.144946 0.835608 0.908387 0.870479 0.974629
10500 0.007800 0.143086 0.847587 0.910108 0.877735 0.975985
11000 0.008200 0.156379 0.873778 0.884301 0.879008 0.976321
11500 0.008200 0.133356 0.901193 0.910108 0.905628 0.980328
12000 0.006900 0.133476 0.892202 0.920215 0.905992 0.980572
12500 0.006900 0.129991 0.890159 0.904516 0.897280 0.978683
按命名实体划分的验证指标
{'JURISPRUDENCIA': {'f1': 0.8135593220338984,
'数量': 657,
'精确率': 0.865979381443299,
'召回率': 0.7671232876712328},
'LEGISLACAO': {'f1': 0.8888888888888888,
'数量': 571,
'精确率': 0.8952042628774423,
'召回率': 0.882661996497373},
'LOCAL': {'f1': 0.850467289719626,
'数量': 194,
'精确率': 0.7777777777777778,
'召回率': 0.9381443298969072},
'ORGANIZACAO': {'f1': 0.8740635033892258,
'数量': 1340,
'精确率': 0.8373205741626795,
'召回率': 0.914179104477612},
'PESSOA': {'f1': 0.9836677554829678,
'数量': 1072,
'精确率': 0.9841269841269841,
'召回率': 0.9832089552238806},
'TEMPO': {'f1': 0.9669669669669669
Indonesian Roberta Base Posp Tagger
MIT
这是一个基于印尼语RoBERTa模型微调的词性标注模型,在indonlu数据集上训练,用于印尼语文本的词性标注任务。
序列标注
Transformers

其他
I
w11wo
2.2M
7
Bert Base NER
MIT
基于BERT微调的命名实体识别模型,可识别四类实体:地点(LOC)、组织机构(ORG)、人名(PER)和杂项(MISC)
序列标注
英语
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
该模型是基于RoBERTa微调的序列标注模型,用于识别和移除医疗记录中的受保护健康信息(PHI/PII)。
序列标注
Transformers

支持多种语言
D
obi
1.1M
33
Ner English Fast
Flair自带的英文快速4类命名实体识别模型,基于Flair嵌入和LSTM-CRF架构,在CoNLL-03数据集上达到92.92的F1分数。
序列标注
PyTorch
英语
N
flair
978.01k
24
French Camembert Postag Model
基于Camembert-base的法语词性标注模型,使用free-french-treebank数据集训练
序列标注
Transformers

法语
F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基于XLM-Roberta-large架构微调的西班牙语命名实体识别模型,在CoNLL-2002数据集上表现优异。
序列标注
Transformers

西班牙语
X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基于NusaBert-v1.3在印尼语NER任务上微调的命名实体识别模型
序列标注
Transformers

其他
N
cahya
759.09k
3
Ner English Large
Flair框架内置的英文4类大型NER模型,基于文档级XLM-R嵌入和FLERT技术,在CoNLL-03数据集上F1分数达94.36。
序列标注
PyTorch
英语
N
flair
749.04k
44
Punctuate All
MIT
基于xlm-roberta-base微调的多语言标点符号预测模型,支持12种欧洲语言的标点符号自动补全
序列标注
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基于xlm-roberta-base微调的日语命名实体识别模型
序列标注
Transformers

支持多种语言
X
tsmatz
630.71k
25
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文