Legal-BERTimbau-base开源模型 - 适配葡萄牙语法律文本处理，免费部署好用！

首页

Legal BERTimbau Base

由 rufimelo 开发

基于BERTimbau大模型微调的法律领域专用BERT模型，适配葡萄牙语法律文本处理

大型语言模型

Transformers

其他开源协议:MIT #葡萄牙语法律文本处理 #法律文书预测 #BERT微调模型

下载量 1,238

发布时间 : 7/29/2022

模型简介

该模型是针对葡萄牙语法律领域优化的BERT模型，通过对30,000份法律文档进行微调训练，提升了在法律文本处理任务中的表现

模型特点

法律领域优化

针对葡萄牙语法律文本进行专门微调，提升法律术语理解能力

双版本可选

提供基础版(1.1亿参数)和大模型版(3.35亿参数)两种规格

高质量预训练

基于BERTimbau模型(巴西葡萄牙语最佳性能BERT)进行微调

模型能力

法律文本理解

法律术语预测

法律文档嵌入表示

使用案例

法律文书处理

法律文书补全

自动预测法律文书中缺失的专业术语

示例中能准确预测'上诉状'等法律专业术语

法律文本分析

提取法律文档的语义特征表示

可生成法律文本的BERT嵌入向量

🚀 法律版巴西BERT模型（Legal_BERTimbau）

Legal_BERTimbau Large是一个基于BERTimbau Large微调的BERT模型。“BERTimbau Base是一个针对巴西葡萄牙语的预训练BERT模型，在三个下游NLP任务（命名实体识别、句子文本相似度和文本蕴含识别）上达到了当前最优性能。它有两种规模：Base和Large。

如需更多信息或有相关需求，请访问BERTimbau仓库。”

当训练数据和测试数据存在领域差异时，语言模型的性能可能会发生显著变化。为了创建一个适用于法律领域的葡萄牙语语言模型，原始的BERTimbau模型经过了微调阶段，在30000份在线可用的葡萄牙语法律文件上进行了1个“预训练”轮次。

✨ 主要特性

基于BERTimbau Large进行微调，适配法律领域。
可用于法律文本的相关NLP任务，如命名实体识别、文本相似度计算等。

📦 安装指南

使用该模型，你需要安装transformers库，可使用以下命令进行安装：

pip install transformers

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-base")

model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-base")

高级用法

掩码语言建模预测示例

from  transformers  import  pipeline
from  transformers  import  AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-base")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-base")

pipe = pipeline('fill-mask', model=model, tokenizer=tokenizer)
pipe('O advogado apresentou [MASK] para o juíz')
# [{'score': 0.5034703612327576, 
#'token': 8190, 
#'token_str': 'recurso', 
#'sequence': 'O advogado apresentou recurso para o juíz'}, 
#{'score': 0.07347951829433441, 
#'token': 21973, 
#'token_str': 'petição', 
#'sequence': 'O advogado apresentou petição para o juíz'}, 
#{'score': 0.05165359005331993, 
#'token': 4299, 
#'token_str': 'resposta', 
#'sequence': 'O advogado apresentou resposta para o juíz'}, 
#{'score': 0.04611917585134506,
#'token': 5265, 
#'token_str': 'exposição', 
#'sequence': 'O advogado apresentou exposição para o juíz'}, 
#{'score': 0.04068068787455559, 
#'token': 19737, 'token_str': 
#'alegações', 
#'sequence': 'O advogado apresentou alegações para o juíz'}]

获取BERT嵌入

import  torch
from  transformers  import  AutoModel

model = AutoModel.from_pretrained('rufimelo/Legal-BERTimbau-base')
input_ids = tokenizer.encode('O advogado apresentou recurso para o juíz', return_tensors='pt')

with  torch.no_grad():
	outs = model(input_ids)
	encoded = outs[0][0, 1:-1]
	
#tensor([[ 0.0328, -0.4292, -0.6230, ..., -0.3048, -0.5674, 0.0157], 
#[-0.3569, 0.3326, 0.7013, ..., -0.7778, 0.2646, 1.1310], 
#[ 0.3169, 0.4333, 0.2026, ..., 1.0517, -0.1951, 0.7050], 
#..., 
#[-0.3648, -0.8137, -0.4764, ..., -0.2725, -0.4879, 0.6264], 
#[-0.2264, -0.1821, -0.3011, ..., -0.5428, 0.1429, 0.0509], 
#[-1.4617, 0.6281, -0.0625, ..., -1.2774, -0.4491, 0.3131]])

📚 详细文档

可用模型

属性	详情
模型类型	有`rufimelo/Legal-BERTimbau-base`（BERT-Base架构，12层，1.1亿参数）和`rufimelo/Legal-BERTimbau-large`（BERT-Large架构，24层，3.35亿参数）两种模型可供选择。
训练数据	在30000份在线可用的葡萄牙语法律文件上进行了1个“预训练”轮次。

📄 许可证

本项目采用MIT许可证。

📚 引用

如果您使用了该模型，请引用BERTimbau的相关工作：

@inproceedings{souza2020bertimbau,
  author    = {F{\'a}bio Souza and
               Rodrigo Nogueira and
               Roberto Lotufo},
  title     = {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese},
  booktitle = {9th Brazilian Conference on Intelligent Systems, {BRACIS}, Rio Grande do Sul, Brazil, October 20-23 (to appear)},
  year      = {2020}
}