基于PEGASUS架构的大型摘要生成模型,在booksum数据集上微调,擅长生成易于理解的SparkNotes风格摘要
下载量 19
发布时间 : 3/2/2022
模型介绍
内容详情
替代品
模型简介
该模型是基于google/pegasus-large在booksum数据集上微调的版本,专门用于生成解释性摘要,而不仅仅是紧凑的文本压缩。
模型特点
解释性摘要
生成更易于理解的SparkNotes风格摘要,而不仅仅是紧凑的文本压缩
长文本处理
能够处理长达1024个令牌的输入序列
高效训练
使用梯度累积和多GPU训练优化训练过程
模型能力
文本摘要生成
长文档理解
解释性内容生成
使用案例
教育
教材摘要
为教科书章节生成易于理解的摘要
帮助学生快速掌握关键概念
研究
论文摘要
为学术论文生成解释性摘要
帮助研究人员快速理解论文核心内容
语言:
- 英语 许可证: apache-2.0 标签:
- 摘要生成
- pegasus 数据集:
- kmfoda/booksum 评估指标:
- rouge 小部件示例:
- 文本: 沿特定断层段的大地震不会随机间隔发生,因为破裂需要时间积累应变能量。构造板块移动和在边界积累应变的速率大致均匀。因此,初步近似下,可以预期同一断层段的大破裂将以大致恒定的时间间隔发生。如果后续主震在断层上的滑移量不同,则复发时间可能变化,周期性主震的基本概念必须修正。对于大型板块边界破裂,长度和滑移量通常相差两倍。沿圣安德烈亚斯断层南段,复发间隔为145年,变化范围达数十年。平均复发间隔的标准差越小,对未来主震的长期预测就越具体。 示例标题: 地震
- 文本: '一个典型的前馈神经场算法。时空坐标输入到一个神经网络中,预测重建域中的值。然后,该域映射到传感器域,其中传感器测量值可作为监督。类别和章节解决的问题包括泛化(第2节)逆问题、不适定问题、可编辑性;对称性。混合表示(第3节)计算与内存效率、表示容量、可编辑性:前向映射(第4节)逆问题网络架构(第5节)频谱偏差、积分与导数。操作神经场(第6节)可编辑性、约束、正则化。表2:神经场工具箱中的五类技术分别解决了学习、推理和控制中出现的问题。(第3节)。我们可以通过可微分的前向映射来监督重建,这些映射转换或投影我们的域(例如,通过2D图像进行3D重建;第4节)。通过适当的网络架构选择,我们可以克服神经网络频谱偏差(模糊性)并高效计算导数和积分(第5节)。最后,我们可以操作神经场以添加约束和正则化,并实现可编辑的表示(第6节)。这些类别共同构成了一个“工具箱”,帮助解决神经场的问题。条件神经场有三个组成部分:(1)编码器或推理函数€,给定观察值0,输出条件潜在变量2。E(0) =2。2通常是一个低维向量,通常被称为潜在代码或特征代码。(2)Z和神经场参数O之间的映射函数4:Y(z) = O;(3)神经场本身$。编码器€找到给定观察值O的最可能z:argmaxz P(2/0)。解码器最大化逆条件概率以找到给定Z的最可能0:argmax P(Olz)。我们讨论了具有不同最优性保证的不同编码方案(第2.1.1节),全局和局部条件(第2.1.2节),以及不同的映射函数Y(第2.1.3节)2. 泛化假设我们希望估计给定部分或有噪声点云的合理3D表面形状。我们需要在其重建域中对表面进行适当的先验,以泛化到部分观察。神经网络通过其架构和参数0的函数空间表达先验,泛化受此函数空间的归纳偏差影响(第5节)。' 示例标题: 科学论文
- 文本: '来自不同来源的多样化数据是大数据现象的关键属性之一。因此,在考虑如何处理这些数据以及如何设计最佳架构以实现这一目标之前,了解数据在各种环境和场景中如何生成是有益的。第2章描述的IT架构演变意味着数据不再由几个大型单体系统处理,而是由一组服务处理。与处理层并行,底层数据存储也发生了变化,变得更加分布式。这反过来需要重大的范式转变,因为传统的事务方法(ACID)不再得到支持。除此之外,云计算正在成为一种主要方法,具有降低成本、提供按需可扩展性的优势,但同时也引入了隐私、数据所有权等方面的担忧。与此同时,互联网继续呈指数级增长:每天都有结构化和非结构化数据发布并可供处理:为了获得竞争优势,公司必须将其企业资源与外部服务相关联,例如金融市场、天气预报、社交媒体等。虽然一些网站提供某种API以更有序的方式访问数据;但无数来源需要高级的网络挖掘和自然语言处理(NLP)技术:科学的进步推动研究人员构建新的仪器来观察宇宙或进行实验以更好地理解物理和其他领域的规律。每年人类都有新的望远镜、太空探测器、粒子加速器等设备可供使用。这些仪器生成巨大的数据流,需要存储和分析。行业中对效率的持续推动促使引入新的自动化技术和过程优化:这离不开描述这些过程的精确数据分析。随着越来越多的人类任务被自动化,机器提供丰富的数据集,可以实时分析以将效率提升到新水平。最后,现在很明显,物联网的增长正在成为数据的主要来源。越来越多的设备配备了显著的计算能力,并可以从其传感器生成连续的数据流。在本章的后续部分,我们将查看上述领域,看看它们生成了什么样的数据集。我们将比较数据量,但也会从各自的角度查看什么是特征和重要的。3.1 互联网无疑是人类创建的最大数据库。虽然通过这个媒介提供了一些描述清晰、清理和结构化的数据集,但大多数资源具有模糊、非结构化、不完整甚至错误的性质。尽管如此,在意见挖掘、社交媒体分析、电子政务等领域的几个例子清楚地展示了这些资源的潜力。那些能够成功挖掘和解释互联网数据的人可以在业务中获得独特的洞察力和竞争优势。企业IT和互联网边缘的数据分析的一个重要领域是网络分析。' 示例标题: 数据科学教科书
- 文本: '基于Transformer的模型在许多NLP任务中显示出非常有用。然而,基于Transformer的模型的一个主要限制是其O(n^2)O(n 2)时间和内存复杂度(其中nn是序列长度)。因此,在长序列n > 512n>512上应用基于Transformer的模型在计算上非常昂贵。最近的几篇论文,例如Longformer、Performer、Reformer、聚类注意力,试图通过近似完整的注意力矩阵来解决这个问题。如果您不熟悉这些模型,可以查看🤗最近的博客文章。BigBird(在论文中介绍)是最近解决这个问题的模型之一。BigBird依赖于块稀疏注意力而不是普通注意力(即BERT的注意力),并且可以处理长度高达4096的序列,计算成本比BERT低得多。它在涉及非常长序列的各种任务上实现了SOTA,例如长文档摘要、具有长上下文的问答。BigBird RoBERTa-like模型现在可在🤗Transformers中使用。本文的目标是让读者深入理解big bird的实现,并简化在🤗Transformers中使用BigBird的生活。但是,在深入之前,重要的是要记住BigBird的注意力是BERT完整注意力的近似,因此并不力求比BERT的完整注意力更好,而是更高效。它只是允许将基于Transformer的模型应用于更长的序列,因为BERT的二次内存需求很快变得难以承受。简单地说,如果我们有∞计算和∞时间,BERT的注意力将优于块稀疏注意力(我们将在本文中讨论)。如果您想知道为什么在处理更长的序列时需要更多的计算,这篇博客文章正适合您!在处理标准BERT-like注意力时,可能会遇到的一些主要问题包括:所有令牌真的需要关注所有其他令牌吗?为什么不只计算重要令牌上的注意力?如何决定哪些令牌是重要的?如何以非常高效的方式只关注少数几个令牌?在本博客文章中,我们将尝试回答这些问题。应该关注哪些令牌?我们将通过考虑句子“BigBird现在可用于HuggingFace进行抽取式问答”来给出一个实际示例,说明注意力如何工作。在BERT-like注意力中,每个单词将简单地关注所有其他令牌。让我们通过编写一些伪代码来思考一个合理的键令牌选择,查询令牌实际上只应关注这些键令牌。我们将假设令牌“available”被查询,并构建一个合理的键令牌列表来关注。>>> # 让我们以以下句子为例 >>> example = ['BigBird', 'is', 'now', 'available', 'in', 'HuggingFace', 'for', 'extractive', 'question', 'answering'] >>> # 进一步假设,我们试图理解“available”的表示,即 >>> query_token = 'available' >>> # 我们将初始化一个空的
set
,并在本节中逐步填充我们感兴趣的令牌。 >>> key_tokens = [] # => 目前“available”令牌没有任何关注附近的令牌应该很重要,因为在句子(单词序列)中,当前单词高度依赖于相邻的过去和未来令牌。这种直觉是滑动注意力概念背后的思想。' 示例标题: bigbird博客介绍 推理参数: 最大长度: 64 无重复n-gram大小: 2 编码器无重复n-gram大小: 3 重复惩罚: 2.4 长度惩罚: 0.5 束搜索数: 4 提前停止: true 模型索引: - 名称: pszemraj/pegasus-large-summary-explain
结果:
- 任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: kmfoda/booksum
类型: kmfoda/booksum
配置: kmfoda--booksum
分割: 测试
指标:
- 类型: rouge 值: 29.1023 名称: ROUGE-1 已验证: true 验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTFhNjg4YTFlODU5MmVjNGVmNDRmMjQ4M2YyZGNmMWRlYjBhZmVhMTY3ZTUxNDkzNjY0OGVmNWJlNmY1OTkzNCIsInZlcnNpb24iOjF9.E_rVKqB7WEerLeRq6JIVTLZ1TgmsThFQJVKh11WH1qWa-cL3766psPWDKe8mK3lNkjmwbiDW0DZlDt4dm2ATCA
- 类型: rouge 值: 6.2441 名称: ROUGE-2 已验证: true 验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNDVmZmFlOTgwN2Q3ZWRkZGVkMzU1ZDRkYzU1MWMzMTk1NDM5YTU0MzFjNDljNmZlY2I2NjZmZjcyYjBkZGExZCIsInZlcnNpb24iOjF9.QnuGoMWX8cq5_ukRtiaLRLau_F9XiCjg313GC7Iu1VGK8Kj_9lzU43377VsH0fBWooA1zJjtIK0UA-YpGQQOAA
- 类型: rouge 值: 14.7503 名称: ROUGE-L 已验证: true 验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMzJhNzE0YjZiZWQ4NDE1Yjg3ZGJjY2ZmYWEwYzU5MTRhYWNiNTcyODU1NzM5NTZhNjNlNmYwNDVlYmZmYjkxOCIsInZlcnNpb24iOjF9.m5BLUMefXa1KivIIE9-gYKYq5aRRbfpQWazqzXxfCsqqp38Lt0ymk6OwXSlQyB_5oksNHIDFKpJX4wjYx2i7Bw
- 类型: rouge 值: 27.2375 名称: ROUGE-LSUM 已验证: true 验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMTY1OTIxMzBkMGJiZmNiNjZjYmQ2MjUwMjBkYTg5Zjc1NjVlZjllNTg0MDM1NTdhZDJlZmIwOTczOGNkZDc5YyIsInZlcnNpb24iOjF9.bThI16mvqhEuGBhdao0w8j03vv9G9Quy-ITRZzalr41zOour9it4oxEPFCvmPf-nLCQkqgWKUDEzgr6Ww8qgBg
- 类型: 损失 值: 2.979011058807373 名称: 损失 已验证: true 验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOGM0NzM3YTI4Njg4NDY0ZjQzNTZmYTIxYzcxNDBlNzAwNTAxNDE4MTZjYmZmNzYwODU0OWQ1ZjM5YjRmMmFkZiIsInZlcnNpb24iOjF9.EPEP53AoqHz0rjVGStJI2dM7ivxFmOj572I3llWdAoejm3zO1Iq5WDArYsqOse_oLxYCgcqPmNVc5IcLW9x7Dg
- 类型: 生成长度 值: 467.269 名称: 生成长度 已验证: true 验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjgzYzU2ZjkwN2RhNzJlZmQyZTBlYmUxMTZhNzg0ODMwMjA3OTUzNTIwOWFkZWVmNjVmMTJiZmZhNWFmY2UzZCIsInZlcnNpb24iOjF9.RW5tzk2fcc_m4bgaSopRDFhSR9R8hRaYKrstXH4X5iGP_Xwvhy5Q7-igd2ACnlxIfmtdTmMxLMsvHr5oAZEwDg
- 任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: kmfoda/booksum
类型: kmfoda/booksum
配置: kmfoda--booksum
分割: 测试
指标:
pszemraj/pegasus-large-summary-explain
该模型是基于google/pegasus-large在booksum数据集上微调四个完整周期的版本。
在评估集上取得了以下结果:
- 评估损失: 1.1193
- 评估运行时间: 6.6754
- 每秒评估样本数: 27.714
- 每秒评估步数: 1.798
- 周期: 3.0
- 步数: 900
一个1周期的检查点可以在pszemraj/pegasus-large-book-summary找到,这是第二次训练会话的起点。
模型描述
- 经过一些初步测试,发现训练在booksum数据集上的模型似乎继承了摘要的SparkNotes风格解释;因此用户得到的是文本的更短且更易于理解的版本,而不仅仅是更紧凑。
- 这种质量(据传闻)对学习/理解是有利的,因为仅仅使信息更紧凑的摘要数据集(咳嗽 arXiv)可能非常密集,以至于试图理解它在说什么所花费的总时间可能与阅读原始材料相同。
预期用途与限制
- 标准pegasus的最大输入长度为1024个令牌,因此模型在训练时只看到章节的前1024个令牌,并学习尝试从中生成章节的摘要。在使用此模型时请记住这一点,因为超过1024个令牌的文本序列末尾的信息可能被排除在最终摘要之外/模型将偏向于首先呈现的信息。
训练与评估数据
需要更多信息
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率: 4e-05
- 训练批次大小: 16
- 评估批次大小: 16
- 随机种子: 42
- 分布式类型: 多GPU
- 梯度累积步数: 2
- 总训练批次大小: 32
- 优化器: Adam,beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 余弦
- 学习率调度器预热比例: 0.03
- 周期数: 4
框架版本
- Transformers 4.16.2
- Pytorch 1.10.2+cu113
- Datasets 1.18.3
- Tokenizers 0.11.0
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成
英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成
英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers

英语
T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers

英语
P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers

韩语
T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成
英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers

英语
B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers

韩语
K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文