语言:
- 英语
标签:
- 文本摘要
数据集:
- 科学论文
评估指标:
- ROUGE
模型索引:
- 名称: ccdv/lsg-bart-base-16384-pubmed
结果: []
Transformers版本 >= 4.36.1\
此模型依赖自定义建模文件,需添加参数trust_remote_code=True\
详见#13467
LSG ArXiv研究论文。\
GitHub/转换脚本可在此链接获取。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-16384-pubmed", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-16384-pubmed", trust_remote_code=True)
text = "替换为您想要的内容。"
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(
text,
truncation=True,
max_length=64,
no_repeat_ngram_size=7,
num_beams=2,
early_stopping=True
)
ccdv/lsg-bart-base-16384-pubmed
此模型是基于ccdv/lsg-bart-base-4096-pubmed在scientific_papers pubmed数据集上微调得到的版本。\
模型经过转换可处理16384长度的长序列,并在1个训练周期内完成微调。\
测试集上的性能表现如下:
长度 |
全局标记数 |
微调方式 |
块大小 |
稀疏度 |
连接数 |
R1 |
R2 |
RL |
RLsum |
16384 |
64 |
完整微调 |
256 |
0 |
768 |
48.32 |
22.52 |
29.36 |
44.57 |
16384 |
1 |
完整微调 |
256 |
0 |
768 |
48.26 |
22.53 |
29.40 |
44.51 |
16384 |
64 |
仅全局微调 |
256 |
0 |
768 |
48.12 |
20.46 |
29.34 |
44.40 |
16384 |
1 |
无微调 |
256 |
0 |
768 |
48.03 |
22.42 |
29.28 |
44.32 |
参考模型表现:
长度 |
全局标记数 |
微调方式 |
块大小 |
稀疏度 |
连接数 |
R1 |
R2 |
RL |
RLsum |
4096 |
1 |
- |
256 |
0 |
768 |
47.37 |
21.74 |
28.59 |
43.67 |
模型描述
该模型采用局部-稀疏-全局注意力机制处理长序列:

模型参数约1.45亿(6层编码器-6层解码器)。\
模型由ccdv/lsg-bart-base-4096-pubmed热启动,经转换支持长序列处理(仅编码器)并进行微调。
预期用途与限制
需补充更多信息
训练与评估数据
需补充更多信息
训练流程
训练超参数
训练过程中使用的超参数如下:
- 学习率: 8e-05
- 训练批次大小: 8
- 随机种子: 42
- 梯度累积步数: 4
- 总训练批次大小: 32
- 优化器: Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型: 线性
- 学习率预热比例: 0.1
- 训练周期数: 1.0
生成超参数
生成过程中使用的超参数如下:
- 数据集名称: scientific_papers
- 数据集配置: pubmed
- 评估批次大小: 4
- 评估样本数: 6658
- 早停机制: 启用
- 忽略填充标记损失: 启用
- 长度惩罚系数: 2.0
- 最大生成长度: 512
- 最小生成长度: 128
- 束搜索宽度: 5
- 禁止重复n元语法: 无限制
- 随机种子: 123
框架版本
- Transformers 4.18.0
- PyTorch 1.10.1+cu102
- Datasets 2.1.0
- Tokenizers 0.11.6