语言:
- 英文
标签:
- 摘要生成
小部件示例:
- 文本: |
在下一段介绍更简单的基于DNN的BagNets之前,我们先回顾经典特征袋模型的主要要素。特征袋表示可以通过类比词袋表示来描述。词袋方法会统计文档中词汇表里单词的出现次数。该词汇表包含重要单词(但不包括"and"或"the"等常见词)以及单词聚类(即语义相似的单词如"gigantic"和"enormous"会被归并)。词汇表中每个单词的计数被组合成一个长向量。这被称为词袋文档表示,因为所有单词的顺序信息都丢失了。同样,特征袋表示基于视觉单词的词汇表,这些视觉单词代表局部图像特征的聚类。图像的词向量就是词汇表中每个视觉单词的出现次数。这个词向量被用作分类器(如SVM或MLP)的输入。许多成功的图像分类模型都基于这个流程(Csurka等,2004;Jurie & Triggs,2005;Zhang等,2007;Lazebnik等,2006),最新概述可参见O'Hara & Draper(2011)。
- 文本: |
减少序列计算的目标也构成了扩展神经GPU[16]、ByteNet[18]和ConvS2S[9]的基础,这些模型都使用卷积神经网络作为基本构建块,并行计算所有输入和输出位置的隐藏表示。在这些模型中,关联两个任意输入或输出位置信号所需的操作次数会随位置间距增长——ConvS2S呈线性增长,ByteNet呈对数增长。这使得学习远距离位置间的依赖关系更加困难[12]。在Transformer中,这一操作被减少为常数级,尽管代价是由于注意力加权位置的平均化导致有效分辨率降低,我们通过3.2节描述的多头注意力机制来抵消这种影响。
自注意力(有时称为内部注意力)是一种关联单个序列不同位置的注意力机制,用于计算序列的表示。自注意力已成功应用于多种任务,包括阅读理解、抽象摘要、文本蕴含和学习任务无关的句子表示[4,27,28,22]。
端到端记忆网络基于循环注意力机制而非序列对齐循环,已被证明在简单语言问答和语言建模任务中表现良好[34]。
据我们所知,Transformer是第一个完全依赖自注意力来计算输入输出表示,而不使用序列对齐RNN或卷积的转导模型。在后续章节中,我们将描述Transformer,阐释自注意力机制,并讨论其相对于[17,18]和[9]等模型的优势。
许可证:
- MIT许可
管道标签: 摘要生成
Bart-Large摘要模型

本仓库包含Bart-Large论文转幻灯片摘要模型,该模型基于科研论文自动生成幻灯片数据集,采用论文《仅使用单语语料库的无监督机器翻译》中的无监督学习算法进行微调。其主要专注于精准摘要科学文本,该模型与同一贡献者开发的Bart-large-paper2slides-expander并行训练。
模型详情
Bart(双向自回归变换器)是Facebook AI Research开发的序列到序列(seq2seq)模型。在文本摘要、文本生成和机器翻译等多种自然语言处理(NLP)任务中表现出色。
本Bart-Large模型是Bart模型的大规模版本,包含12层编码器和解码器,总计4亿参数。
使用方式
通过Hugging Face的Transformers库使用该模型:
from transformers import BartTokenizer, BartForConditionalGeneration, pipeline
model_name = "com3dian/Bart-large-paper2slides-summarizer"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)
input_text = "输入文本..."
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids)
summary = tokenizer.decode(output[0], skip_special_tokens=True)
print(summary)
summarizer = pipeline("summarization", model=model_name)
summary = summarizer(input_text, max_length=50, min_length=30, do_sample=False)
print(summary)
使用前请通过pip安装transformers
库:
pip install transformers
微调细节
模型采用无监督学习技术在幻灯片生成数据集上微调。无监督学习指无需人工标注目标,模型通过逆向摘要扩展模型提供的输入来学习还原原始文本。
关键微调超参数:
- 批量大小: 4
- 学习率: 2e-6
- 训练步数: 3*7
- 优化器: AdamW
模型表现
该模型已在人工智能、数学、统计学、历史学、地理学和气候科学等广泛科学领域进行人工评估,与Bart-large-cnn模型进行性能对比。
致谢
感谢Bart模型原作者和幻灯片生成数据集创建者的贡献。如使用本模型,请引用原始Bart模型、幻灯片数据集及本论文。
许可证
本模型及相关代码基于MIT许可证发布。