语言:
- 意大利语
标签:
- 文本生成
- 摘要生成
- 法律人工智能
- 意大利法律
许可证:MIT
数据集:
- joelniklaus/Multi_Legal_Pile
库名称:transformers
管道标签:文本生成
小部件:
- 文本:" 1234: 合同视为成立当..."
基础模型:
- morenolq/bart-it
📌 模型卡片:LEGIT-BART系列
🏛️ 模型概述
LEGIT-BART模型是一系列基于Transformer预训练的模型,专为意大利法律文本处理设计。
它们基于BART-IT(morenolq/bart-it
)并在意大利法律语料库上进行了进一步预训练。
💡 主要特点:
- 采用局部-稀疏-全局注意力机制(LSG)扩展上下文长度(最高支持16,384个标记)📜
- 训练数据涵盖法规、判例法和合同等法律文书📑
- 未针对特定任务微调(需进一步适配)
📂 可用模型
模型 |
描述 |
链接 |
LEGIT-BART |
在morenolq/bart-it 基础上继续用意大利法律文本预训练 |
🔗 链接 |
LEGIT-BART-LSG-4096 |
继续预训练的morenolq/bart-it ,支持4,096个标记 |
🔗 链接 |
LEGIT-BART-LSG-16384 |
继续预训练的morenolq/bart-it ,支持16,384个标记 |
🔗 链接 |
LEGIT-SCRATCH-BART |
完全使用意大利法律文本从头训练 |
🔗 链接 |
LEGIT-SCRATCH-BART-LSG-4096 |
采用LSG注意力机制从头训练,支持4,096个标记 |
🔗 链接 |
LEGIT-SCRATCH-BART-LSG-16384 |
采用LSG注意力机制从头训练,支持16,384个标记 |
🔗 链接 |
BART-IT-LSG-4096 |
带LSG注意力的morenolq/bart-it ,支持4,096个标记(未适配法律领域) |
🔗 链接 |
BART-IT-LSG-16384 |
带LSG注意力的morenolq/bart-it ,支持16,384个标记(未适配法律领域) |
🔗 链接 |
🛠️ 模型详情
🔹 架构
- 基础模型:
morenolq/bart-it
- Transformer编码器-解码器结构
- LSG注意力机制处理长文档
- 从头训练的模型使用特定分词器(实验表明持续预训练效果更优)
🔹 训练数据
🚀 使用示例
from transformers import BartForConditionalGeneration, AutoTokenizer
model_name = "morenolq/LEGIT-BART-LSG-4096"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)
input_text = "<mask> 1234: 合同视为成立当..."
inputs = tokenizer(input_text, return_tensors="pt", max_length=4096, truncation=True)
summary_ids = model.generate(inputs.input_ids, max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("📝 摘要:", summary)
⚠️ 限制与伦理考量
- 未针对特定任务微调:这些模型在法律文本上预训练,需进一步适配具体法律NLP任务(如摘要生成、问答)。
- 偏见与公平性:法律文本可能包含司法体系中的偏见。使用时需注意确保公平性和伦理合规。
- 法律建议:本模型不能替代专业法律意见。涉及法律事务时请务必咨询合格法律人士。
📚 参考文献
介绍LEGIT-BART模型的论文正在审稿中,发表后将在此更新。
@article{benedetto2025legitbart,
title = {LegItBART:意大利法律文档摘要模型},
author = {Benedetto, Irene and La Quatra, Moreno and Cagliero, Luca},
year = 2025,
journal = {人工智能与法律},
publisher = {Springer},
pages = {1--31},
doi = {10.1007/s10506-025-09436-y},
url = {doi.org/10.1007/s10506-025-09436-y}
}