许可证:
标签:
数据集:
- kmfoda/booksum
- big_patent
评估指标:
示例:
- 文本:沿特定断层段的大地震不会随机间隔发生,因为破裂需要时间积累应变能量。构造板块移动和在边界积累应变的速率大致均匀。因此,初步近似下,可以预期同一断层段的大破裂将以大致恒定的时间间隔发生。如果后续主震在断层上的滑移量不同,那么复发时间可能会变化,周期性主震的基本概念必须修正。对于大型板块边界破裂,长度和滑移通常会有2倍的变化。沿圣安德烈亚斯断层南段,复发间隔为145年,变化范围可达几十年。平均复发间隔的标准差越小,对未来主震的长期预测就越具体。
示例标题:地震
- 文本:一种典型的正向神经场算法。时空坐标输入到预测重建域值的神经网络中。然后,该域映射到可获得传感器测量值作为监督的传感器域。类别和章节解决的问题包括泛化(第2节)逆问题、不适定问题、可编辑性;对称性。混合表示(第3节)计算与内存效率、表示容量、可编辑性:前向映射(第4节)逆问题网络架构(第5节)频谱偏差、积分与导数。操作神经场(第6节)可编辑性、约束、正则化。表2:神经场工具箱中的五类技术分别解决了学习、推理和控制中出现的问题。(第3节)。我们可以通过可微分的前向映射来监督重建,这些映射转换或投影我们的域(例如,通过2D图像进行3D重建;第4节)。通过适当的网络架构选择,我们可以克服神经网络频谱偏差(模糊性)并高效计算导数和积分(第5节)。最后,我们可以操作神经场以添加约束和正则化,并实现可编辑的表示(第6节)。这些类别共同构成了帮助解决神经场问题的技术“工具箱”。条件神经场有三个组成部分:(1)编码器或推理函数€,给定观察值0,输出条件潜变量2 E(0) =2。2通常是低维向量,通常称为潜码或特征码。(2)Z与神经场参数O之间的映射函数4:Y(z) = O;(3)神经场本身$。编码器€找到给定观察值O的最可能z:argmaxz P(2/0)。解码器最大化逆条件概率以找到给定Z的最可能0:argmax P(Olz)。我们讨论了具有不同最优性保证的不同编码方案(第2.1.1节),全局和局部条件(第2.1.2节),以及不同的映射函数Y(第2.1.3节)2. 泛化假设我们希望估计给定部分或有噪声点云的合理3D表面形状。我们需要在其重建域中对表面进行适当的先验,以泛化到部分观察。神经网络通过其架构和参数0的函数空间表达先验,泛化受此函数空间的归纳偏差影响(第5节)。
示例标题:科学论文
- 文本:这是一个关于计算统计讲座的转录音频。讲座中讨论了交叉验证技术,这是数据科学、机器学习和现代统计的基础之一。讲座介绍了计算统计中的验证问题,即如何在未见过的数据上量化模型的性能。解决方案是通过隐藏部分数据不让模型看到,然后使用这些隐藏数据进行验证。
示例标题:转录音频 - 讲座
- 文本:基于Transformer的模型在许多NLP任务中表现出色。然而,这类模型的主要限制是其O(n^2)的时间和内存复杂度(其中n是序列长度)。因此,在长序列(n > 512)上应用基于Transformer的模型计算成本非常高。最近几篇论文如Longformer、Performer、Reformer、Clustered attention试图通过近似完整的注意力矩阵来解决这个问题。BigBird是最近提出的解决这一问题的模型之一,它依赖于块稀疏注意力而非普通注意力(如BERT的注意力),可以处理长度达4096的序列,计算成本比BERT低得多。它在涉及长序列的各种任务中取得了最先进的性能,如长文档摘要、具有长上下文的问答。
示例标题:BigBird博客介绍
- 文本:公平地说,要理解《瑞克和莫蒂》,你需要有很高的智商。幽默极其微妙,没有扎实的理论物理基础,大多数笑话会让普通观众摸不着头脑。还有瑞克的虚无主义观点,巧妙地融入他的性格塑造中——他的个人哲学深受《父与子》等俄罗斯文学的影响。粉丝们理解这些东西;他们有智力真正欣赏这些笑话的深度,意识到它们不仅仅是搞笑——它们对生活有深刻的见解。因此,不喜欢《瑞克和莫蒂》的人确实是白痴——当然,他们不会欣赏瑞克的存在主义口头禅“Wubba Lubba Dub Dub”中的幽默,这本身就是对屠格涅夫的俄罗斯史诗《父与子》的隐晦引用。我现在正咧嘴笑着想象那些头脑简单的傻瓜在丹·哈蒙的天才智慧在他们电视屏幕上展开时困惑地挠头的样子。多么愚蠢...我多么可怜他们。😂
顺便说一句,我确实有一个《瑞克和莫蒂》的纹身。不,你不能看。这是仅供女士们看的——而且她们必须证明她们的智商与我的相差不超过5点(最好是更低)。没什么大不了的,孩子😎
示例标题:瑞克和莫蒂
参数:
- 最大长度:64
- 最小长度:8
- 无重复n-gram大小:3
- 早停:true
- 重复惩罚:3.5
- 长度惩罚:0.3
- 编码器无重复n-gram大小:3
- 束搜索数量:4
模型索引:
- 名称:pszemraj/long-t5-tglobal-base-16384-booksum-V11-big_patent-V2
结果:
- 任务:
类型:摘要生成
名称:摘要生成
数据集:
名称:kmfoda/booksum
类型:kmfoda/booksum
配置:kmfoda--booksum
拆分:测试
指标:
- 类型:rouge
值:23.1439
名称:ROUGE-1
已验证:true
- 类型:rouge
值:3.2393
名称:ROUGE-2
已验证:true
- 类型:rouge
值:12.7038
名称:ROUGE-L
已验证:true
- 类型:rouge
值:19.8101
名称:ROUGE-LSUM
已验证:true
- 类型:loss
值:2.766307830810547
名称:loss
已验证:true
- 类型:gen_len
值:63.4493
名称:gen_len
已验证:true
README - long-t5-tglobal-base-16384-booksum-V11-big_patent-V2
- 此README因原模型缺少而添加
- 创建于2022-07-31_12-14-50
关于
一项实验测试了pszemraj/long-t5-tglobal-base-16384-book-summary的一些迁移学习能力,通过huggingface上的big_patent
数据集评估学习技术文档的能力。
此检查点已在big_patent
数据集的子集y
上训练了约400步,功能批量大小为128。