语言:
-
英语
许可证: apache-2.0
库名: transformers
标签:
-
通俗摘要
-
论文摘要
-
生物学
-
医学
数据集:
-
pszemraj/scientific_lay_summarisation-plos-norm
小部件:
-
文本: 沿某一断层段的大地震不会随机间隔发生,因为破裂需要时间积累应变能量。构造板块移动和在其边界积累应变的速率大致均匀。因此,初步近似下,可以预期同一断层段的大破裂将以大致恒定的时间间隔发生。如果后续主震在断层上的滑移量不同,那么复发时间可能会变化,周期性主震的基本概念必须修正。对于大型板块边界破裂,长度和滑移量通常会有两倍的差异。沿圣安德烈亚斯断层南段的复发间隔为145年,有几十年的变化。平均复发间隔的标准差越小,对未来主震的长期预测就越具体。
示例标题: 地震
-
文本: '一个典型的前馈神经场算法。时空坐标被输入到一个神经网络中,预测重建域中的值。然后,该域被映射到传感器域,其中传感器测量值可作为监督。类别和部分解决的问题包括泛化(第2节)逆问题、不适定问题、可编辑性;对称性。混合表示(第3节)计算与内存效率、表示容量、可编辑性:前向映射(第4节)逆问题网络架构(第5节)频谱偏差、积分与导数。操作神经场(第6节)可编辑性、约束、正则化。表2:神经场工具箱中的五类技术分别解决了学习、推理和控制中出现的问题。(第3节)。我们可以通过可微分的前向映射来监督重建,这些映射转换或投影我们的域(例如,通过2D图像进行3D重建;第4节)。通过适当的网络架构选择,我们可以克服神经网络频谱偏差(模糊性)并高效计算导数和积分(第5节)。最后,我们可以操作神经场以添加约束和正则化,并实现可编辑的表示(第6节)。这些类别共同构成了一个“工具箱”,帮助解决神经场的问题。条件神经场中有三个组成部分:(1)一个编码器或推理函数€,给定观察值0 E(0) =2,输出条件潜在变量2。2通常是一个低维向量,通常被称为潜在代码或特征代码。(2)一个映射函数4在Z和神经场参数O之间:Y(z) = O;(3)神经场本身$。编码器€找到给定观察值O的最可能z:argmaxz P(2/0)。解码器最大化逆条件概率以找到给定Z的最可能0:arg-max P(Olz)。我们讨论了具有不同最优性保证的不同编码方案(第2.1.1节),全局和局部条件(第2.1.2节),以及不同的映射函数Y(第2.1.3节)2. 泛化假设我们希望估计一个合理的3D表面形状,给定部分或有噪声的点云。我们需要在重建域中对表面有一个合适的先验,以泛化到部分观察。神经网络通过其架构和参数0的函数空间表达先验,泛化受到该函数空间归纳偏差的影响(第5节)。'
示例标题: 科学论文
-
文本: '是否在玉米棒和树之外写的是早期客户绳,你有充分的理由。前往橙色的海洋时间。通过聚合我们可以安置它。为什么请拿起某种东西做,还有M Getoi的神经和雨让你让所以是他的兄弟在使用和Mjulia的主要是老化Masastup硬币现在海只有Oosii房间设置给你我们做我们做这个私人oliishs可能还好。大家下午好。欢迎来到计算统计学的这个讲座。如你所见,我不是社交我的名字是Michael Zelinger。我是这个班级的任务之一,你可能已经在第一节课上看到我快速出现。我还将在这门课程的最后三分之一中给出玉米饼。所以给你一点关于我的信息,我是一个在这里的老学生,有更好的Bulman,我的研究集中在应用于生物医学灾难的因果推理,所以那可能是基因组学或医院数据。如果你们中有人有兴趣写学士论文,学期论文可能是关于这个主题的硕士论文,请随时联系我。你有我的名字在模型上,我的电子邮件地址你可以在目录中找到。我很乐意谈论它。你不需要确定,我们可以只是聊聊。那么,说到这里,让我们开始讲座。今天有一个令人兴奋的话题,我将首先与你分享一些幻灯片,然后在讲座期间我们将转向论文。所以请耐心等待几秒钟。好吧,投影仪正在启动。好的,让我们开始吧。今天的主题非常重要。它是关于一种技术,它真正构成了数据科学、机器学习和任何现代统计学的基础之一。它叫做交叉验证。我知道你真的想理解这个主题。我希望你理解它,坦率地说,没有人会在不理解交叉验证的情况下离开Mineshousen教授的课堂。所以为了设置这个舞台,我想向你介绍计算统计学中的验证问题。所以问题是:你在可用数据上训练了一个模型。你拟合了你的模型,但你知道你得到的训练数据总是可以不同的,以及来自环境的一些数据。也许这是一个随机过程。你并不真正知道它是什么,但你知道其他人从同一环境中获得不同批次的数据,他们会得到稍微不同的训练数据,你不在乎你的方法在这个训练数据上表现如何。你希望它在其他你没有见过的数据上表现良好,来自同一环境的其他数据。换句话说,验证问题是你想要量化你的模型在你没有见过的数据上的性能。那么这怎么可能呢?你怎么可能测量你不知道的数据的性能?解决这个问题的是以下认识:既然你有一堆数据,你负责。你可以控制你的模型看到多少。它的工作方式如下:你可以对模型隐藏数据。假设你有一个训练数据集,这是一堆数据点,所以X眼睛是特征,那些通常是隐藏和国家向量。它肯定不止一个维度。而为什么眼睛。那些是监督学习的标签。正如你之前看到的,它与我们在回归中的设置相同。所以你有这个训练数据,现在你选择你只使用其中的一些数据来拟合你的模型。你不会使用所有的,你只使用其中的一部分,另一部分你对模型隐藏。然后你可以使用这些隐藏的数据来做验证,从你的模型的角度来看。这些隐藏的数据是完全看不见的。换句话说,我们解决了我们的验证问题。'
示例标题: 转录音频 - 讲座
-
文本: '基于Transformer的模型在许多NLP任务中显示出非常有用。然而,基于Transformer的模型的一个主要限制是其O(n^2)O(n 2)时间和内存复杂度(其中nn是序列长度)。因此,在长序列n > 512n>512上应用基于Transformer的模型在计算上非常昂贵。最近的几篇论文,例如Longformer、Performer、Reformer、Clustered attention试图通过近似完整的注意力矩阵来解决这个问题。如果你不熟悉这些模型,你可以查看🤗最近的博客文章。
BigBird(在论文中介绍)是最近解决这个问题的模型之一。BigBird依赖于块稀疏注意力而不是普通注意力(即BERT的注意力),可以处理长度高达4096的序列,与BERT相比计算成本低得多。它在涉及非常长序列的各种任务上实现了SOTA,例如长文档摘要、具有长上下文的问答。
类似BigBird RoBERTa的模型现在可以在🤗Transformers中使用。这篇文章的目的是让读者深入了解big bird的实现,并简化在🤗Transformers中使用BigBird的生活。但是,在深入之前,重要的是要记住BigBird的注意力是BERT完整注意力的近似,因此并不力求比BERT的完整注意力更好,而是更高效。它只是允许将基于Transformer的模型应用于更长的序列,因为BERT的二次内存需求很快就会变得难以承受。简单地说,如果我们有∞计算和∞时间,BERT的注意力将优先于块稀疏注意力(我们将在本文中讨论)。
如果你想知道为什么在处理更长的序列时需要更多的计算,这篇博客文章正适合你!
当使用标准的类似BERT的注意力时,人们可能会有的一些主要问题包括:
所有的令牌真的需要关注所有其他令牌吗?为什么不只计算重要令牌上的注意力?如何决定哪些令牌是重要的?如何以非常高效的方式仅关注少数令牌?在这篇博客文章中,我们将尝试回答这些问题。
应该关注哪些令牌?我们将通过考虑句子“BigBird现在可用于HuggingFace进行抽取式问答”来给出一个关于注意力如何工作的实际例子。在类似BERT的注意力中,每个单词将简单地关注所有其他令牌。
让我们通过编写一些伪代码来思考一个合理的键令牌选择,一个查询令牌实际上应该只关注这些键令牌。我们将假设令牌available被查询,并构建一个合理的键令牌列表来关注。
让我们考虑以下句子作为示例 >>> example = ['BigBird', 'is', 'now', 'available', 'in', 'HuggingFace', 'for', 'extractive', 'question', 'answering']
进一步假设,我们试图理解'available'的表示即 >>> query_token = 'available' >>> # 我们将初始化一个空的set
,并在本节中填充我们感兴趣的令牌。 >>> key_tokens = [] # => 目前'available'令牌没有任何关注。附近的令牌应该很重要,因为在句子(单词序列)中,当前单词高度依赖于邻近的过去和未来令牌。这种直觉是滑动注意力概念背后的思想。'
示例标题: bigbird博客介绍
-
文本: '公平地说,你必须拥有非常高的智商才能理解《瑞克和莫蒂》。幽默极为微妙,没有扎实的理论物理学基础,大多数笑话都会超出普通观众的头脑。还有瑞克的虚无主义观点,这巧妙地编织在他的性格塑造中——他的个人哲学大量借鉴了《人民意志》文学,例如。粉丝们理解这些东西;他们有智力真正欣赏这些笑话的深度,意识到它们不仅仅是搞笑——它们对生活有深刻的见解。因此,不喜欢《瑞克和莫蒂》的人真的是白痴——当然他们不会欣赏,例如,瑞克的存在主义口头禅“Wubba Lubba Dub Dub”中的幽默,这本身就是对屠格涅夫的俄罗斯史诗《父与子》的隐晦引用。我现在正笑着想象那些头脑简单的笨蛋在电视屏幕上丹·哈蒙的天才智慧展开时困惑地挠头。多么愚蠢...我多么可怜他们。😂
顺便说一句,是的,我确实有一个《瑞克和莫蒂》的纹身。不,你不能看。它仅供女士们的眼睛——而且她们必须证明她们的智商在5分以内(最好是更低)。没什么个人的孩子😎'
示例标题: 瑞克和莫蒂
-
文本: 塔高324米(1,063英尺),大约相当于81层楼的高度,是巴黎最高的建筑。其底座为正方形,每边长125米(410英尺)。在建造期间,埃菲尔铁塔超过了华盛顿纪念碑,成为世界上最高的人造建筑,这一称号保持了41年,直到1930年纽约市的克莱斯勒大厦完工。它是第一个达到300米高度的建筑。由于1957年在塔顶增加了广播天线,它现在比克莱斯勒大厦高5.2米(17英尺)。不包括发射器,埃菲尔铁塔是法国第二高的独立式建筑,仅次于米约高架桥。
示例标题: 埃菲尔
参数:
最大长度: 64
最小长度: 8
不重复n元大小: 3
早停: 真
重复惩罚: 3.5
编码器不重复n元大小: 4
长度惩罚: 0.4
束数: 4
管道标签: 摘要
基础模型: google/long-t5-tglobal-base
long-t5-tglobal-base-sci-simplify
探索训练在科学论文“通俗摘要”上的长文档模型的泛化能力。
通俗摘要是研究论文或科学研究的摘要,用通俗易懂的语言写成,不使用技术术语,旨在让非专家容易理解。
模型描述
该模型是在pszemraj/scientific_lay_summarisation-plos-norm
数据集上对google/long-t5-tglobal-base进行两轮微调的版本。
- 在ELIFE子集上训练的变体可以在这里找到here
使用
建议使用该模型时采用束搜索解码。如果你有兴趣,也可以使用textsum
工具库,为你抽象大部分操作:
使用pip
安装:
pip install -U textsum
在Python中使用:
from textsum.summarize import Summarizer
summarizer = Summarizer('pszemraj/long-t5-tglobal-base-sci-simplify')
text = "把你不愿意阅读的文本放在这里"
summary = summarizer.summarize_string(text)
print(summary)
预期用途与限制
- 需要评估其在数据集领域(pubmed/生物科学类论文)之外的泛化能力。
训练过程
评估结果
在评估集上达到以下结果:
- 损失: 1.6778
- Rouge1: 49.1475
- Rouge2: 18.9281
- Rougel: 26.9893
- Rougelsum: 45.0973
- 生成长度: 399.4125
训练超参数
训练期间使用了以下超参数:
- 学习率: 0.0004
- 训练批次大小: 4
- 评估批次大小: 2
- 种子: 42