lsg-bart-base-4096-multinews开源模型 - 支持长文本输入，高效完成摘要任务

首页

Lsg Bart Base 4096 Multinews

由 ccdv 开发

基于LSG技术的BART-base模型，专为长文本摘要任务设计，支持4096长度的输入序列

文本生成

Transformers

英语#长文本摘要 #局部稀疏全局注意力 #多文档摘要

下载量 26

发布时间 : 5/25/2022

模型简介

该模型采用局部-稀疏-全局注意力机制处理长序列，在multi_news数据集上微调，适用于多文档摘要生成任务

模型特点

长序列处理能力

支持最长4096 tokens的输入序列，采用局部-稀疏-全局注意力机制高效处理长文本

多文档摘要优化

在multi_news数据集上微调，专门针对多文档摘要场景优化

灵活注意力配置

支持多种稀疏注意力模式（池化/跨步/块跨步/归一化/LSH），可根据需求平衡性能与资源消耗

模型能力

长文本摘要生成

多文档信息整合

英文文本处理

使用案例

新闻摘要

多源新闻摘要

从多个相关新闻文章中生成统一摘要

在multi_news测试集上达到R1 47.10/R2 18.94/RL 25.22

文档整理

长文档摘要

对技术文档、研究报告等长文本生成精简摘要

🚀 ccdv/lsg-bart-base-4096-multinews

该模型是基于ccdv/lsg-bart-base-4096在multi_news默认数据集上微调得到的，用于文本摘要任务。

🚀 快速开始

环境要求

Transformers >= 4.36.1
该模型依赖自定义建模文件，你需要添加trust_remote_code=True
详情请见 #13467

代码示例

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-4096-multinews", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-4096-multinews", trust_remote_code=True)

text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(
  text, 
  truncation=True, 
  max_length=64, 
  no_repeat_ngram_size=7,
  num_beams=2,
  early_stopping=True
  )

✨ 主要特性

该模型是 ccdv/lsg-bart-base-4096 在 multi_news default 数据集上的微调版本。
模型采用 Local-Sparse-Global 注意力机制处理长序列。
模型约有 1.45 亿个参数（6 个编码器层 - 6 个解码器层），从 BART-base 预热启动，转换为处理长序列（仅编码器）并进行微调。

📚 详细文档

测试集结果

该模型在测试集上取得了以下结果：

较大块大小

长度	稀疏类型	块大小	稀疏度	连接数	R1	R2	RL	RLsum
4096	Local	256	0	768	47.10	18.94	25.22	43.13
4096	Local	128	0	384	46.73	18.79	25.13	42.76
4096	Pooling	128	4	644	46.83	18.87	25.23	42.86
4096	Stride	128	4	644	46.83	18.68	24.98	42.88
4096	Block Stride	128	4	644	46.83	18.72	25.06	42.88
4096	Norm	128	4	644	46.74	18.60	24.93	42.79
4096	LSH	128	4	644	46.74	18.82	25.19	42.77

较小块大小（资源需求较低）

长度	稀疏类型	块大小	稀疏度	连接数	R1	R2	RL	RLsum
4096	Local	64	0	192	45.61	17.91	24.54	41.65
4096	Local	32	0	96	43.50	16.36	23.45	39.61
4096	Pooling	32	4	160	44.77	17.31	24.16	40.86
4096	Stride	32	4	160	45.29	17.81	24.45	41.40
4096	Block Stride	32	4	160	45.39	17.86	24.51	41.43
4096	Norm	32	4	160	44.65	17.25	24.09	40.76
4096	LSH	32	4	160	44.44	17.20	24.00	40.57

模型描述

该模型依靠 Local-Sparse-Global 注意力机制来处理长序列： attn

模型约有 1.45 亿个参数（6 个编码器层 - 6 个解码器层）。模型从 BART-base 预热启动，转换为处理长序列（仅编码器）并进行微调。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：8e-05
训练批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：32
优化器：Adam（betas=(0.9,0.999)，epsilon=1e-08）
学习率调度器类型：线性
学习率调度器预热比例：0.1
训练轮数：12.0

生成超参数

生成过程中使用了以下超参数：

数据集名称：multi_news
数据集配置名称：default
评估批次大小：8
评估样本数：5622
提前停止：True
忽略填充标记进行损失计算：True
长度惩罚：2.0
最大长度：320
最小长度：32
束搜索数量：5
不重复 n-gram 大小：None
随机种子：123

框架版本

Transformers 4.18.0
Pytorch 1.10.1+cu102
Datasets 2.1.0
Tokenizers 0.11.6