🚀 法律版巴西BERT模型(Legal_BERTimbau)
Legal_BERTimbau是一个针对法律领域微调的BERT模型,基于巴西葡萄牙语预训练模型BERTimbau,能够在法律文本处理任务中发挥出色的性能。
🚀 快速开始
安装依赖
确保你已经安装了transformers
库:
pip install transformers
加载模型和分词器
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-large")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-large")
✨ 主要特性
- 领域适配:基于BERTimbau模型,针对法律领域进行微调,能更好地处理法律文本。
- 多模型可选:提供基础版和大型版两种模型,满足不同需求。
📦 安装指南
使用pip
安装所需的transformers
库:
pip install transformers
💻 使用示例
基础用法
掩码语言建模预测示例
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-large")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-large")
pipe = pipeline('fill-mask', model=model, tokenizer=tokenizer)
pipe('O advogado apresentou [MASK] para o juíz')
获取BERT嵌入
import torch
from transformers import AutoModel
model = AutoModel.from_pretrained('rufimelo/Legal-BERTimbau-large')
input_ids = tokenizer.encode('O advogado apresentou recurso para o juíz', return_tensors='pt')
with torch.no_grad():
outs = model(input_ids)
encoded = outs[0][0, 1:-1]
📚 详细文档
模型介绍
Legal_BERTimbau Large是基于BERTimbau Large微调的BERT模型。BERTimbau Base是针对巴西葡萄牙语的预训练BERT模型,在命名实体识别、句子文本相似度和文本蕴含识别三项下游NLP任务中达到了最先进的性能。它有Base和Large两种尺寸可供选择。
当训练数据和测试数据之间存在领域差异时,语言模型的性能可能会发生显著变化。为了创建适应法律领域的葡萄牙语语言模型,原始的BERTimbau模型经过了微调阶段,在30000份在线可用的葡萄牙语法律文件上进行了1个“预训练”周期的训练(学习率:1e - 5)。
可用模型
模型 |
架构 |
层数 |
参数数量 |
rufimelo/Legal-BERTimbau-base |
BERT-Base |
12 |
110M |
rufimelo/Legal-BERTimbau-large |
BERT-Large |
24 |
335M |
📄 许可证
本项目采用MIT许可证。
📖 引用
如果您使用了本项目,请引用BERTimbau的相关工作:
@inproceedings{souza2020bertimbau,
author = {F{\'a}bio Souza and
Rodrigo Nogueira and
Roberto Lotufo},
title = {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese},
booktitle = {9th Brazilian Conference on Intelligent Systems, {BRACIS}, Rio Grande do Sul, Brazil, October 20-23 (to appear)},
year = {2020}
}