许可证:Apache-2.0
标签:
- 摘要生成
数据集:billsum
示例输入:
- 文本:'加利福尼亚州人民颁布如下法令:章节标题 刑法第1170.02条新增内容如下:1170.02。根据第1170条(e)款,若囚犯因一级谋杀罪被定罪,且受害者为第830.1、830.2、830.3、830.31、830.32、830.33、830.34、830.35、830.36、830.37、830.4、830.5、830.6、830.10、830.11或830.12条定义的正在执行职务的治安官,且行为人知道或理应知道受害者为执行职务的治安官,或受害者为上述条款所列的现役或退役治安官,并因执行公务而遭蓄意报复杀害,则该囚犯不符合重审或召回条件。章节标题 刑法第3550条修订如下:3550。除(b)款规定外,若监狱首席医师根据本节认定某囚犯因永久性医疗失能(该状况使其完全丧失日常生活能力且需24小时护理)且该失能状态在量刑时不存在,则假释委员会判定其释放条件不会对公共安全构成合理威胁时,应批准其医疗假释。本节不改变或削弱《2008年受害者权利法案》赋予的权利。(a)款不适用于以下情形:被判处死刑或无假释可能性的终身监禁囚犯;根据任何倡议法规禁止假释的囚犯;以及因杀害治安官(定义同上)被定一级谋杀罪的囚犯。当惩教康复部主治医师认为某囚犯符合(a)款医疗假释标准时,应建议监狱首席医师将案件提交假释委员会审议。若30日内首席医师同意该建议,则使用标准化表格提交;若不同意,需书面说明理由。囚犯或其家属也可直接申请医疗假释,首席医师需30日内会同主治医师作出决定。惩教康复部需为医疗假释候选人制定假释计划,包括居住和医疗安排。医疗假释听证会由至少一名专员组成的两人小组进行,票数相同时提交全体委员会裁决。假释委员会需独立评估释放后的公共安全风险,并可施加电子监控等合理条件。假释期间若医学检查显示健康状况改善至不符合医疗假释标准,囚犯需返回监禁。确定刑期囚犯在最早释放日期前获医疗假释的,假释持续至该日期;不确定刑期囚犯在最低假释资格日期前获医疗假释的,持续至该日期后按常规假释程序处理。惩教康复部需确保假释囚犯申请联邦福利计划,并携带医疗摘要、完整病历、药物及个人物品。本节规定不影响囚犯其他法定假释或释放资格。(1)惩教康复部需提前30日或尽快向关押县和拟释放县通知医疗假释听证及释放安排。'
基础模型:led-base-16384
模型索引:
- 名称:d0r1h/LEDBill
结果:
- 任务:
类型:摘要生成
名称:Summarization
数据集:
名称:billsum
类型:billsum
配置:默认
拆分:测试
指标:
- 类型:rouge
值:38.6502
名称:ROUGE-1
已验证:是
- 类型:rouge
值:18.5458
名称:ROUGE-2
已验证:是
- 类型:rouge
值:25.6561
名称:ROUGE-L
已验证:是
- 类型:rouge
值:33.1575
名称:ROUGE-LSUM
已验证:是
- 类型:loss
值:2.1305277347564697
名称:loss
已验证:是
- 类型:gen_len
值:288.372
名称:gen_len
已验证:是
基于Billsum微调的长文档编码器-解码器(LED)模型
本模型是在billsum数据集上对led-base-16384进行微调的版本。
根据Iz Beltagy、Matthew E. Peters和Arman Cohan的论文《Longformer: 长文档Transformer》,led-base-16384是从bart-base初始化而来,因为两者架构完全相同。为处理16K长度的文本,bart-base的位置嵌入矩阵被复制了16次。
使用方法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained("d0r1h/LEDBill")
model = AutoModelForSeq2SeqLM.from_pretrained("d0r1h/LEDBill", return_dict_in_generate=True).to(device)
案例文本 = "......."
input_ids = tokenizer(案例文本, return_tensors="pt").input_ids.to(device)
global_attention_mask = torch.zeros_like(input_ids)
global_attention_mask[:, 0] = 1
sequences = model.generate(input_ids,
global_attention_mask=global_attention_mask).sequences
摘要 = tokenizer.batch_decode(sequences,
skip_special_tokens=True)
评估结果
在Billsum文档摘要任务(10个样本)中,模型表现如下:
模型 |
rouge1-f |
rouge1-p |
rouge2-f |
rouge2-p |
rougeL-f |
rougeL-p |
LEDBill |
34 |
37 |
15 |
16 |
30 |
32 |
led-base |
2 |
15 |
0 |
0 |
2 |
15 |
此笔记本展示了如何将led模型有效应用于摘要生成等下游任务。