许可证:Apache-2.0
数据集:ILC
标签:
演示示例:
- 文本:"在帕特纳高等法院的杂项刑事案第229121号,源于2020年第127号警局案件,杜姆拉翁警局,布克萨尔地区。1. 拉姆拉尔·戈斯瓦米,约44岁,男性,已故高里·尚卡尔之子;2. 达尔姆希拉·德维(又名萨维塔·德维),约35岁,拉姆拉尔之妻。两人均居住于巴德卡·达凯奇村,克里希纳·布拉姆地区... 申请人... 对方当事人... 比哈尔邦政府。出庭:申请人代理律师... 国家代表... 主审法官:尊敬的阿赫萨努丁·阿马努拉法官。口头判决。马诺吉·库马尔律师与阿尼尔·库马尔·罗伊律师共同代理申请人;拉姆·苏米兰·罗伊律师作为国家附加公诉人。本案通过视频会议审理。2. 听取了申请人律师马诺吉·库马尔与阿尼尔·库马尔·罗伊的陈述,以及国家附加公诉人拉姆·苏米兰·罗伊的意见。3. 申请人律师请求允许为第二名申请人添加别名萨维塔·德维。4. 请求获准。5. 申请人律师需在后天前通过电子方式对案由标题进行必要更正。日期:2021年8月3日。帕特纳高等法院刑事杂项第229121号,2021年8月3日。6. 申请人因涉嫌2020年4月15日登记的杜姆拉翁警局第1220号案件(涉及印度刑法第406、420、467、468、471、448、506及34条)而面临逮捕。7. 指控称,报案人(申请人1的表兄弟)通过申请人1购买土地,但在价格和同一地块被重复出售给两人方面遭受欺诈。8. 申请人律师指出,报案人售地价格远高于其声称通过申请人1协商的价格,此类金钱纠纷属民事性质,刑事起诉属滥用司法程序。申请人已提交补充宣誓书,明确否认重复售地行为。申请人夫妇无犯罪前科,若指控属实,其他受侵害方应已提起诉讼,但案卷中未提及任何相关人名或文件细节。9. 国家附加公诉人指控申请人欺诈报案人并重复登记土地。10. 综合考虑案情及双方陈述,若申请人在六周内自首或被捕,可在各提交25,000卢比保释金及两名等额担保人(其中一名需为亲属)后获释,条件包括遵守《1973年刑事诉讼法》第438(2)条及配合司法程序。11. 若申请人违反保释条件,检方可提请法院处理。12. 本案审结。安贾尼"
基于ILC数据集微调的Longformer编码器-解码器(LED)模型
本模型是在ILC数据集上对led-base-16384进行微调的版本。
根据Iz Beltagy、Matthew E. Peters和Arman Cohan的论文《Longformer: 长文档Transformer》,led-base-16384从bart-base初始化而来,因两者架构完全相同。为处理16K长度的文本,bart-base的位置嵌入矩阵被复制了16次。
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
device = "cuda" if torch.cuda.is_available() else "CPU"
checkpoint = "d0r1h/led-base-ilc"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint, return_dict_in_generate=True).to(device)
case = "......."
input_ids = tokenizer(case, return_tensors="pt").input_ids.to(device)
global_attention_mask = torch.zeros_like(input_ids)
global_attention_mask[:, 0] = 1
sequences = model.generate(input_ids,
global_attention_mask=global_attention_mask).sequences
summary = tokenizer.batch_decode(sequences,
skip_special_tokens=True)
评估结果
模型在ILC文档摘要任务(10个样本)上的表现如下:
模型 |
rouge1-f |
rouge1-p |
rouge2-f |
rouge2-p |
rougeL-f |
rougeL-p |
led-ilc |
42 |
47 |
22 |
24 |
39 |
44 |
led-base |
3 |
39 |
1 |
21 |
3 |
37 |
此笔记本展示了如何将led模型有效应用于摘要生成等下游任务。