🚀 (BERT基础) 葡萄牙语法律领域的语言建模
legal-bert-base-cased-ptbr 是一个基于 BERTimbau base 模型、采用掩码目标的葡萄牙语法律领域语言模型。
该模型旨在助力法律领域的自然语言处理研究、计算机法学以及法律技术应用。训练过程中使用了多篇葡萄牙语法律文本(更多信息见下文)。
该模型的大版本即将推出。
🚀 快速开始
本模型可用于辅助法律领域的自然语言处理研究、计算机法学和法律技术应用。以下将介绍如何加载预训练模型及使用示例。
✨ 主要特性
- 领域针对性强:聚焦于葡萄牙语法律领域,能更好地处理法律相关文本。
- 应用广泛:可用于法律领域的自然语言处理研究、计算机法学以及法律技术应用。
📦 安装指南
使用以下代码加载预训练模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("dominguesm/legal-bert-base-cased-ptbr")
model = AutoModel.from_pretrained("dominguesm/legal-bert-base-cased-ptbr")
from transformers import pipeline
pipe = pipeline('fill-mask', "dominguesm/legal-bert-base-cased-ptbr")
💻 使用示例
基础用法
以下是使用该模型进行掩码填充的示例:
from transformers import pipeline
pipe = pipeline('fill-mask', "dominguesm/legal-bert-base-cased-ptbr")
高级用法
在实际应用中,可将模型用于处理各种法律文本,例如:
文本 |
掩码标记 |
预测结果 |
De ordem, a Secretaria Judiciária do Supremo Tribunal Federal INTIMA a parte abaixo identificada, ou quem as suas vezes fizer, do inteiro teor do(a) despacho/decisão presente nos autos (art. 270 do Código de Processo [MASK] e art 5º da Lei 11.419/2006). |
Civil |
('Civil', 0.9999), ('civil', 0.0001), ('Penal', 0.0000), ('eletrônico', 0.0000), ('2015', 0.0000) |
2. INTIMAÇÃO da Autarquia: 2.2 Para que apresente em Juízo, com a contestação, cópia do processo administrativo referente ao benefício [MASK] em discussão na lide |
previdenciário |
('ora', 0.9424), ('administrativo', 0.0202), ('doença', 0.0117), ('acidente', 0.0037), ('posto', 0.0036) |
Certifico que, nesta data, os presentes autos foram remetidos ao [MASK] para processar e julgar recurso (Agravo de Instrumento). |
STF |
('Tribunal', 0.4278), ('Supremo', 0.1657), ('origem', 0.1538), ('arquivo', 0.1415), ('sistema', 0.0216) |
TEMA: 810. Validade da correção monetária e dos juros moratórios [MASK] sobre as condenações impostas à Fazenda Pública, conforme previstos no art. 1º-F da Lei 9.494/1997, com a redação dada pela Lei 11.960/2009. |
incidentes |
('incidentes', 0.9979), ('incidente', 0.0021), ('aplicados', 0.0000), (',', 0.0000), ('aplicada', 0.0000) |
📚 详细文档
预训练语料库
legal-bert-base-cased-ptbr 的预训练语料库包括:
- 61309 - Documentos juridicos diversos | (各类法律文件)
- 751 - Petições (Recurso Extraordinário JEC) | (请愿书)
- 682 - Sentenças | (判决书)
- 498 - Acordãos 2º Instancia | (二审裁决)
- 469 - Agravos Recurso extraordinário | (特别上诉申诉)
- 411 - Despacho de Admissibilidade | (受理令)
所使用的数据由巴西联邦最高法院提供,使用条款见:LREC 2020。
本项目的结果绝不代表巴西联邦最高法院的立场,所有责任由模型作者独自承担。
训练结果
Num examples = 353435
Num Epochs = 3
Instantaneous batch size per device = 4
Total train batch size (w. parallel, distributed & accumulation) = 32
Gradient Accumulation steps = 1
Total optimization steps = 33135
TRAIN RESULTS
"epoch": 3.0
"train_loss": 0.6107781137512769
"train_runtime": 10192.1545
"train_samples": 353435
"train_samples_per_second": 104.031
"train_steps_per_second": 3.251
EVAL RESULTS
"epoch": 3.0
"eval_loss": 0.47251805663108826
"eval_runtime": 126.3026
"eval_samples": 17878
"eval_samples_per_second": 141.549
"eval_steps_per_second": 4.426
"perplexity": 1.604028145934512
引用方式
@misc{domingues2022legal-bert-base-cased-ptbr,
author = {Domingues, Maicon},
title = {Language Model in the legal domain in Portuguese},
year={2022},
howpublished= {\url{https://huggingface.co/dominguesm/legal-bert-base-cased-ptbr/}}
}
📄 许可证
本模型采用 CC BY 4.0 许可证。