Lsg Bart Large 4096
LSG模型是基于BART-large改进的长序列处理模型,采用局部+稀疏+全局注意力机制,高效处理长文本任务
下载量 15
发布时间 : 3/2/2022
模型简介
该模型针对编码器-解码器任务优化,能高效处理长序列输入,相比传统长序列模型具有更快速度和更高效率
模型特点
高效长序列处理
采用局部+稀疏+全局注意力机制(LSG),显著提升长文本处理效率
自适应序列长度
支持自动填充序列长度至分块大小的整数倍,确保处理稳定性
多模式稀疏选择
提供6种稀疏选择模式(如BOS池化、LSH聚类等),适应不同任务需求
兼容原始架构
保持与BART-large相同的参数规模和层数,共享相同分词器
模型能力
长文本摘要生成
序列到序列转换
高效处理4096长度输入
文本分类
使用案例
文本摘要
长文档自动摘要
对科研论文、长篇文章等超长文本生成精准摘要
相比传统模型处理速度提升显著
文本处理
长文本分类
对超长文档进行分类任务
保持高准确率的同时降低内存消耗
🚀 LSG模型
LSG模型基于BART-large
进行了调整,适用于编码器 - 解码器任务,无需额外的预训练。它能够处理长序列,并且比来自模型中心的Longformer (LED) 或BigBird (Pegasus) 更快、更高效,依赖于局部 + 稀疏 + 全局注意力 (LSG) 机制。
⚠️ 重要提示
此模型依赖于自定义建模文件,需要添加
trust_remote_code=True
才能使用。 此模型需要Transformers >= 4.36.1
。 请参考 #13467。
🚀 快速开始
此模型依赖于自定义建模文件,使用时需要添加trust_remote_code=True
。
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("ccdv/lsg-bart-large-4096", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-large-4096")
✨ 主要特性
- 该模型改编自 BART-large,用于编码器 - 解码器任务,无需额外预训练,使用相同数量的参数/层和相同的分词器。
- 能够处理长序列,并且比Longformer (LED) 或BigBird (Pegasus) 更快、更高效,依赖于局部 + 稀疏 + 全局注意力 (LSG)。
- 模型要求序列长度是块大小的倍数,若需要可自动填充序列(配置中
adaptive=True
),不过建议使用分词器截断输入(truncation=True
),并可选择按块大小的倍数进行填充(pad_to_multiple_of=...
)。
📦 安装指南
此模型依赖于自定义建模文件,使用时需要添加trust_remote_code=True
,同时需要Transformers >= 4.36.1
。
💻 使用示例
基础用法
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("ccdv/lsg-bart-large-4096", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-large-4096")
高级用法
from transformers import AutoModel
model = AutoModel.from_pretrained("ccdv/lsg-bart-large-4096",
trust_remote_code=True,
num_global_tokens=16,
block_size=64,
sparse_block_size=64,
attention_probs_dropout_prob=0.0,
sparsity_factor=4,
sparsity_type="none",
mask_first_token=True
)
Seq2Seq摘要任务示例
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-large-4096",
trust_remote_code=True,
pass_global_tokens_to_decoder=True, # Pass encoder global tokens to decoder
)
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-large-4096")
SENTENCE = "This is a test sequence to test the model. " * 300
token_ids = tokenizer(
SENTENCE,
return_tensors="pt",
#pad_to_multiple_of=... # Optional
truncation=True
)
output = model(**token_ids)
分类任务示例
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("ccdv/lsg-bart-large-4096",
trust_remote_code=True,
pass_global_tokens_to_decoder=True, # Pass encoder global tokens to decoder
)
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-large-4096")
SENTENCE = "This is a test sequence to test the model. " * 300
token_ids = tokenizer(
SENTENCE,
return_tensors="pt",
padding="max_length", # Optional but recommended
truncation=True # Optional but recommended
)
output = model(**token_ids)
> SequenceClassifierOutput(loss=None, logits=tensor([[-0.3051, -0.1762]], grad_fn=<AddmmBackward>), hidden_states=None, attentions=None)
🔧 技术细节
参数设置
可以更改各种参数,例如:
- 全局令牌数量 (
num_global_tokens=1
) - 局部块大小 (
block_size=128
) - 稀疏块大小 (
sparse_block_size=128
) - 稀疏因子 (
sparsity_factor=2
) - 掩码第一个令牌 (
mask first token since it is redundant with the first global token
) - 更多参数可查看
config.json
文件
默认参数在实践中效果良好。如果内存不足,可以减小块大小、增加稀疏因子并去除注意力分数矩阵中的丢弃率。
稀疏选择类型
有6种不同的稀疏选择模式,最佳类型取决于具体任务。
- 若
sparse_block_size=0
或sparsity_type="none"
,则仅考虑局部注意力。 - 注意,对于长度 < 2 * 块大小的序列,稀疏选择类型没有影响。
稀疏选择类型 | 描述 | 适用稀疏因子 | 附加参数 |
---|---|---|---|
sparsity_type="bos_pooling" (新) |
使用BOS令牌进行加权平均池化 | 通常较大 (8, 16, 32) | 无 |
sparsity_type="norm" |
选择范数最高的令牌 | 较小 (2 到 4) | 无 |
sparsity_type="pooling" |
使用平均池化合并令牌 | 较小 (2 到 4) | 无 |
sparsity_type="lsh" |
使用LSH算法对相似令牌进行聚类 | 较大 (4+) | lsg_num_pre_rounds=1 (在计算质心之前合并令牌n次) |
sparsity_type="stride" |
每个头使用按稀疏因子跨步的不同令牌 | 不建议sparsify_factor > num_heads |
无 |
sparsity_type="block_stride" |
每个头使用按稀疏因子跨步的令牌块 | 不建议sparsify_factor > num_heads |
无 |
📚 详细文档
📄 许可证
BART引用
@article{DBLP:journals/corr/abs-1910-13461,
author = {Mike Lewis and
Yinhan Liu and
Naman Goyal and
Marjan Ghazvininejad and
Abdelrahman Mohamed and
Omer Levy and
Veselin Stoyanov and
Luke Zettlemoyer},
title = {{BART:} Denoising Sequence-to-Sequence Pre-training for Natural Language
Generation, Translation, and Comprehension},
journal = {CoRR},
volume = {abs/1910.13461},
year = {2019},
url = {http://arxiv.org/abs/1910.13461},
eprinttype = {arXiv},
eprint = {1910.13461},
timestamp = {Thu, 31 Oct 2019 14:02:26 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1910-13461.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文