Legal-BERTimbau-large开源法律AI模型 - 免费处理葡萄牙语法律文本

首页

Legal BERTimbau Large

由 rufimelo 开发

基于BERTimbau大模型微调的法律领域葡萄牙语BERT模型，专注于法律文本处理

大型语言模型

Transformers

其他开源协议:MIT #葡萄牙法律文本 #法律术语预测 #BERT微调模型

下载量 194

发布时间 : 7/24/2022

模型简介

该模型是针对葡萄牙语法律文本优化的BERT模型，通过30,000份法律文档微调，适用于法律领域的自然语言处理任务

模型特点

法律领域优化

在30,000份葡萄牙法律文档上微调，专门适应法律文本特点

大模型架构

采用BERT-large架构，24层结构，3.35亿参数

葡萄牙语支持

专门针对巴西葡萄牙语优化，在法律领域表现优异

模型能力

法律文本理解

法律术语预测

法律文档嵌入

法律文本掩码预测

使用案例

法律文书处理

法律文书补全

自动预测法律文书中缺失的专业术语

示例中成功预测'上诉'为最可能的法律术语

法律文档分析

生成法律文档的语义嵌入表示

可用于相似案例检索或分类任务

🚀 法律版巴西BERT模型（Legal_BERTimbau）

Legal_BERTimbau是一个针对法律领域微调的BERT模型，基于巴西葡萄牙语预训练模型BERTimbau，能够在法律文本处理任务中发挥出色的性能。

🚀 快速开始

安装依赖

确保你已经安装了transformers库：

pip install transformers

加载模型和分词器

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-large")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-large")

✨ 主要特性

领域适配：基于BERTimbau模型，针对法律领域进行微调，能更好地处理法律文本。
多模型可选：提供基础版和大型版两种模型，满足不同需求。

📦 安装指南

使用pip安装所需的transformers库：

pip install transformers

💻 使用示例

基础用法

掩码语言建模预测示例

from  transformers  import  pipeline
from  transformers  import  AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-large")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-large")

pipe = pipeline('fill-mask', model=model, tokenizer=tokenizer)
pipe('O advogado apresentou [MASK] para o juíz')
# [{'score': 0.5034703612327576, 
#'token': 8190, 
#'token_str': 'recurso', 
#'sequence': 'O advogado apresentou recurso para o juíz'}, 
#{'score': 0.07347951829433441, 
#'token': 21973, 
#'token_str': 'petição', 
#'sequence': 'O advogado apresentou petição para o juíz'}, 
#{'score': 0.05165359005331993, 
#'token': 4299, 
#'token_str': 'resposta', 
#'sequence': 'O advogado apresentou resposta para o juíz'}, 
#{'score': 0.04611917585134506,
#'token': 5265, 
#'token_str': 'exposição', 
#'sequence': 'O advogado apresentou exposição para o juíz'}, 
#{'score': 0.04068068787455559, 
#'token': 19737, 'token_str': 
#'alegações', 
#'sequence': 'O advogado apresentou alegações para o juíz'}]

获取BERT嵌入

import  torch
from  transformers  import  AutoModel

model = AutoModel.from_pretrained('rufimelo/Legal-BERTimbau-large')
input_ids = tokenizer.encode('O advogado apresentou recurso para o juíz', return_tensors='pt')

with  torch.no_grad():
	outs = model(input_ids)
	encoded = outs[0][0, 1:-1]
	
#tensor([[ 0.0328, -0.4292, -0.6230, ..., -0.3048, -0.5674, 0.0157], 
#[-0.3569, 0.3326, 0.7013, ..., -0.7778, 0.2646, 1.1310], 
#[ 0.3169, 0.4333, 0.2026, ..., 1.0517, -0.1951, 0.7050], 
#..., 
#[-0.3648, -0.8137, -0.4764, ..., -0.2725, -0.4879, 0.6264], 
#[-0.2264, -0.1821, -0.3011, ..., -0.5428, 0.1429, 0.0509], 
#[-1.4617, 0.6281, -0.0625, ..., -1.2774, -0.4491, 0.3131]])

📚 详细文档

模型介绍

Legal_BERTimbau Large是基于BERTimbau Large微调的BERT模型。BERTimbau Base是针对巴西葡萄牙语的预训练BERT模型，在命名实体识别、句子文本相似度和文本蕴含识别三项下游NLP任务中达到了最先进的性能。它有Base和Large两种尺寸可供选择。

当训练数据和测试数据之间存在领域差异时，语言模型的性能可能会发生显著变化。为了创建适应法律领域的葡萄牙语语言模型，原始的BERTimbau模型经过了微调阶段，在30000份在线可用的葡萄牙语法律文件上进行了1个“预训练”周期的训练（学习率：1e - 5）。

可用模型

模型	架构	层数	参数数量
`rufimelo/Legal-BERTimbau-base`	BERT-Base	12	110M
`rufimelo/Legal-BERTimbau-large`	BERT-Large	24	335M

📄 许可证

本项目采用MIT许可证。

📖 引用

如果您使用了本项目，请引用BERTimbau的相关工作：

@inproceedings{souza2020bertimbau,
  author    = {F{\'a}bio Souza and
               Rodrigo Nogueira and
               Roberto Lotufo},
  title     = {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese},
  booktitle = {9th Brazilian Conference on Intelligent Systems, {BRACIS}, Rio Grande do Sul, Brazil, October 20-23 (to appear)},
  year      = {2020}
}