语言: 中文
标签: 文本摘要
评估指标:
- ROUGE
- 精确度
推理支持: 否
许可协议: MIT
面向法律文档摘要的PEGASUS模型
legal-pegasus是基于google/pegasus-cnn_dailymail微调的法律领域版本,专门用于执行抽象摘要生成任务。该模型最大支持1024个标记的输入序列长度。
训练数据
本模型基于包含2700余份诉讼公告与起诉书的sec-litigation-releases数据集训练而成。
使用方法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("nsi319/legal-pegasus")
model = AutoModelForSeq2SeqLM.from_pretrained("nsi319/legal-pegasus")
text = """2021年3月5日,美国证券交易委员会指控AT&T公司多次违反《公平披露条例》,并指控其三名投资者关系高管协助促成违规行为——通过选择性向研究分析师披露重大非公开信息。根据诉状,AT&T在2016年3月获悉第一季度智能手机销量超预期下滑将导致季度收入低于分析师预估。诉状指出,为避免连续第三个季度收入未达预期,AT&T投资者关系高管Christopher Womack、Michael Black和Kent Evans私下致电约20家机构的分析师,在通话中披露公司内部智能手机销售数据及其对收入指标的影响。而内部文件明确告知投资者关系人员,此类信息属于对投资者"重大"的范畴,根据《公平披露条例》禁止选择性披露。诉状进一步指出,分析师据此大幅下调收入预测,最终使共识预期值略低于AT&T在2016年4月26日公布的实绩。该曼哈顿联邦法院受理的诉状指控AT&T违反《1934年证券交易法》第13(a)条及《公平披露条例》,并指控三名高管协助违规。SEC寻求对每位被告实施永久禁令并处以民事罚款。调查由纽约地区办公室George N. Stepaniuk、Thomas Peirce和David Zetlin-Jones进行,诉讼将由Alexander M. Vasilescu、Victor Suthammanont和Zetlin-Jones负责,案件由Sanjay Wadhwa监督。"""
input_tokenized = tokenizer.encode(text, return_tensors='pt',max_length=1024,truncation=True)
summary_ids = model.generate(input_tokenized,
num_beams=9,
no_repeat_ngram_size=3,
length_penalty=2.0,
min_length=150,
max_length=250,
early_stopping=True)
summary = [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in summary_ids][0]
评估结果
模型 |
ROUGE-1 |
ROUGE-1精确率 |
ROUGE-2 |
ROUGE-2精确率 |
ROUGE-L |
ROUGE-L精确率 |
legal-pegasus |
57.39 |
62.97 |
26.85 |
28.42 |
30.91 |
33.22 |
pegasus-cnn_dailymail |
43.16 |
45.68 |
13.75 |
14.56 |
18.82 |
20.07 |