语言:
- 英文
标签:
- 摘要生成
数据集:
- ccdv/mediasum
评估指标:
- rouge
模型索引:
- 名称: ccdv/lsg-bart-base-4096-mediasum
结果: []
需Transformers版本 >= 4.36.1
此模型依赖自定义建模文件,需添加参数trust_remote_code=True
详见#13467
LSG技术论文发布于ArXiv链接。
转换脚本及GitHub仓库详见此处。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-4096-mediasum", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-4096-mediasum", trust_remote_code=True)
text = "替换为您需要的文本内容。"
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(
text,
truncation=True,
max_length=64,
no_repeat_ngram_size=7,
num_beams=2,
early_stopping=True
)
ccdv/lsg-bart-base-4096-mediasum
本模型基于ccdv/lsg-bart-base-4096在ccdv/mediasum roberta_prepended数据集上微调而成。
测试集表现如下:
长度 |
稀疏类型 |
块大小 |
稀疏度 |
连接数 |
R1 |
R2 |
RL |
RLsum |
4096 |
局部 |
256 |
0 |
768 |
35.16 |
18.13 |
31.54 |
32.20 |
4096 |
局部 |
128 |
0 |
384 |
34.16 |
17.61 |
30.75 |
31.41 |
4096 |
池化 |
128 |
4 |
644 |
34.52 |
17.71 |
31.01 |
31.67 |
4096 |
跨步 |
128 |
4 |
644 |
35.05 |
18.11 |
31.47 |
32.13 |
4096 |
块跨步 |
128 |
4 |
644 |
34.72 |
17.81 |
31.13 |
31.82 |
4096 |
归一化 |
128 |
4 |
644 |
34.75 |
17.86 |
31.10 |
31.77 |
4096 |
LSH |
128 |
4 |
644 |
34.54 |
17.81 |
31.05 |
31.71 |
较小块尺寸(更低资源消耗)下的表现:
长度 |
稀疏类型 |
块大小 |
稀疏度 |
连接数 |
R1 |
R2 |
RL |
RLsum |
4096 |
局部 |
64 |
0 |
192 |
32.55 |
16.66 |
29.36 |
30.00 |
4096 |
局部 |
32 |
0 |
96 |
30.98 |
15.41 |
27.84 |
28.46 |
4096 |
池化 |
32 |
4 |
160 |
31.84 |
16.02 |
28.68 |
29.30 |
4096 |
跨步 |
32 |
4 |
160 |
32.67 |
16.68 |
29.47 |
30.10 |
4096 |
块跨步 |
32 |
4 |
160 |
32.51 |
16.64 |
29.33 |
29.94 |
4096 |
归一化 |
32 |
4 |
160 |
32.44 |
16.48 |
29.20 |
29.79 |
4096 |
LSH |
32 |
4 |
160 |
31.79 |
16.04 |
28.67 |
29.31 |
模型描述
该模型采用局部-稀疏-全局注意力机制处理长序列:

模型参数约1.45亿(6层编码器-6层解码器)。
基于BART-base模型进行热启动,经改造后支持长序列处理(仅编码器部分)并进行微调。
应用场景与限制
需补充更多信息
训练与评估数据
需补充更多信息
训练流程
训练超参数
- 学习率: 8e-05
- 训练批次大小: 8
- 随机种子: 42
- 梯度累积步数: 4
- 总训练批次大小: 32
- 优化器: Adam (β1=0.9, β2=0.999, ε=1e-08)
- 学习率调度器类型: 线性
- 学习率预热比例: 0.1
- 训练轮次: 6.0
生成超参数
- 数据集名称: ccdv/mediasum
- 数据集配置: roberta_prepended
- 评估批次大小: 8
- 评估样本数: 10000
- 早停机制: 启用
- 忽略填充符损失: 启用
- 长度惩罚系数: 2.0
- 最大生成长度: 128
- 最小生成长度: 3
- 束搜索数: 5
- 禁止重复n元组: 无限制
- 随机种子: 123
框架版本
- Transformers 4.18.0
- PyTorch 1.10.1+cu102
- Datasets 2.1.0
- Tokenizers 0.11.6