language:
- pt
thumbnail: 葡萄牙语T5法律领域专用模型
tags:
- transformers
license: mit
pipeline_tag: summarization


本成果为IRIS项目组成部分。
学位论文:最高法院语义搜索系统
stjiris/t5-portuguese-legal-summarization
基于"unicamp-dl/ptt5-base-portuguese-vocab"T5模型微调的法律摘要模型。
我们采用大量司法判例及其摘要进行模型训练。
使用方法(HuggingFace transformers库)
from transformers import T5Tokenizer, T5ForConditionalGeneration
model_checkpoint = "stjiris/t5-portuguese-legal-summarization"
t5_model = T5ForConditionalGeneration.from_pretrained(model_checkpoint)
t5_tokenizer = T5Tokenizer.from_pretrained(model_checkpoint)
preprocess_text = "此处输入需要摘要的长篇法律文本内容"
t5_prepared_Text = "summarize: "+preprocess_text
tokenized_text = t5_tokenizer.encode(t5_prepared_Text, return_tensors="pt").to(device)
summary_ids = t5_model.generate(tokenized_text,
num_beams=4,
no_repeat_ngram_size=2,
min_length=512,
max_length=1024,
early_stopping=True)
output = t5_tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print ("\n\n生成摘要: \n",output)
引用与作者
贡献者
@rufimelo99
若使用本成果,请引用:
@InProceedings{MeloSemantic,
author="梅洛, 瑞
和桑托斯, 佩德罗
和迪亚斯, 若昂",
editor="莫尼斯, 努诺
和瓦莱, 齐塔
和卡斯卡略, 何塞
和席尔瓦, 卡塔琳娜
和塞巴斯蒂昂, 拉奎尔",
title="葡萄牙最高法院语义搜索系统",
booktitle="人工智能进展",
year="2023",
publisher="Springer Nature Switzerland",
address="瑞士",
pages="142--154",
abstract="多数信息检索系统采用词法匹配方法,这种方法存在诸多局限,尤其在法律等专业领域更为突出。BERT等大语言模型能深度理解语言特性,可突破BM25等传统方法的限制。本研究开发了辅助葡萄牙最高法院决策的语义搜索系统原型,结合特别训练的Legal-BERTimbau变体模型,构建了融合词法与语义技术的混合搜索系统。实验表明,在首条查询结果的发现指标上较BM25提升335%。本文还提出了适用于葡萄牙司法实践的大模型训练关键技术,并创新性地引入元数据知识蒸馏方法。",
isbn="978-3-031-49011-8"
}
@article{ptt5_2020,
title={PTT5:巴西葡萄牙语数据的T5模型预训练与验证},
author={卡莫, 迪埃德
和皮奥, 马科斯
和坎皮奥蒂, 伊斯雷尔
和诺盖拉, 罗德里戈
和洛图福, 罗伯托},
journal={arXiv预印本 arXiv:2008.09144},
year={2020}
}