语言:
- 葡萄牙语
缩略图: "葡萄牙法律领域BERT模型"
标签:
- bert
- pytorch
数据集:
- rufimelo/PortugueseLegalSentences-v0
许可证: "mit"
小部件示例:
- 文本: "律师向法官提交了[MASK]。"
法律领域BERTimbau模型
简介
Legal_BERTimbau Large是基于BERTimbau大模型微调的法律领域BERT模型。
"BERTimbau Base是一个针对巴西葡萄牙语的预训练BERT模型,在命名实体识别、句子文本相似度和文本蕴含识别三个下游NLP任务中达到了最先进的性能。该模型提供两种规格:Base版和Large版。
更多信息或请求请访问BERTimbau项目仓库。"
当训练数据与测试数据存在领域差异时,语言模型的性能会发生显著变化。为创建适应法律领域的葡萄牙语模型,原始BERTimbau模型经过微调阶段,在30,000份在线葡萄牙法律文档上进行了1轮"预训练"(学习率:1e-5)。
可用模型
模型名称 |
架构 |
层数 |
参数量 |
rufimelo/Legal-BERTimbau-base |
BERT基础版 |
12 |
1.1亿 |
rufimelo/Legal-BERTimbau-large |
BERT大模型版 |
24 |
3.35亿 |
使用方法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-large")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-large")
掩码语言建模预测示例
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("rufimelo/Legal-BERTimbau-large")
model = AutoModelForMaskedLM.from_pretrained("rufimelo/Legal-BERTimbau-large")
pipe = pipeline('fill-mask', model=model, tokenizer=tokenizer)
pipe('律师向法官提交了[MASK]')
获取BERT嵌入向量
import torch
from transformers import AutoModel
model = AutoModel.from_pretrained('rufimelo/Legal-BERTimbau-large')
input_ids = tokenizer.encode('律师向法官提交了上诉', return_tensors='pt')
with torch.no_grad():
outs = model(input_ids)
encoded = outs[0][0, 1:-1]
引用
若使用本作品,请引用BERTimbau的论文:
@inproceedings{souza2020bertimbau,
author = {F{\'a}bio Souza and
Rodrigo Nogueira and
Roberto Lotufo},
title = {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese},
booktitle = {9th Brazilian Conference on Intelligent Systems, {BRACIS}, Rio Grande do Sul, Brazil, October 20-23 (to appear)},
year = {2020}
}