long-t5-tglobal-base-sci-simplify开源文本摘要模型 - 免费生成科学论文易懂摘要

首页

Long T5 Tglobal Base Sci Simplify

由 pszemraj 开发

该模型是基于Long-T5架构的文本摘要模型，专门用于生成科学论文的通俗易懂摘要。

文本生成

Transformers

英语开源协议:Apache-2.0 #科学论文通俗摘要 #长文本处理 #生物医学简化

下载量 59.18k

发布时间 : 4/6/2023

模型简介

该模型是在科学论文通俗摘要数据集上微调的Long-T5模型，能够将复杂的技术文本转换为非专业人士也能理解的简化摘要。

模型特点

长文本处理能力

基于Long-T5架构，能够处理长达4096个token的长序列文本。

科学文本简化

专门针对科学论文进行优化，能够生成通俗易懂的摘要。

高效注意力机制

使用块稀疏注意力而非普通注意力，计算效率更高。

模型能力

长文本摘要

技术文本简化

科学论文通俗化

使用案例

学术研究

论文摘要生成

为科研论文生成面向非专业人士的通俗摘要

在评估集上Rouge-1得分49.15

科学传播

将复杂科学概念转化为大众易于理解的语言

🚀 long-t5-tglobal-base-sci-simplify

本项目旨在探索基于科学论文“通俗摘要”训练的长文档模型的泛化能力。通俗摘要指的是用通俗易懂的语言撰写的科研论文或科学研究总结，不使用专业术语，便于非专业人士理解。

🚀 快速开始

你可以点击下面的链接在Colab中打开示例：

✨ 主要特性

该模型是在 pszemraj/scientific_lay_summarisation-plos-norm 数据集上对 google/long-t5-tglobal-base 进行两个周期微调得到的。
基于 ELIFE 子集训练的变体可以在这里找到。

📦 安装指南

建议使用波束搜索解码来使用此模型。如果你有兴趣，也可以使用 textsum 工具仓库来简化操作。

使用 pip 安装：

pip install -U textsum

💻 使用示例

基础用法

在 Python 中使用的示例代码如下：

from textsum.summarize import Summarizer

summarizer = Summarizer('pszemraj/long-t5-tglobal-base-sci-simplify')
text = "put the text you don't want to read here"
summary = summarizer.summarize_string(text)
print(summary)

📚 详细文档

预期用途与局限性

需要评估该模型在数据集领域（如 PubMed/生物科学类论文）之外的泛化能力。

训练过程

评估结果

该模型在评估集上取得了以下结果：

损失值：1.6778
Rouge1：49.1475
Rouge2：18.9281
Rougel：26.9893
Rougelsum：45.0973
生成长度：399.4125

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	0.0004
训练批次大小	4
评估批次大小	2
随机种子	42
分布式类型	多 GPU
梯度累积步数	16
总训练批次大小	64
优化器	Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型	余弦
学习率调度器预热比例	0.01
训练周期数	2.0

训练结果

训练损失	周期	步数	验证损失	Rouge1	Rouge2	Rougel	Rougelsum	生成长度
1.966	0.52	200	1.7171	48.6521	18.427	26.7726	44.3947	376.335
1.877	1.03	400	1.6909	49.3263	18.7945	27.0741	45.1737	382.205
1.9007	1.55	600	1.6778	49.1475	18.9281	26.9893	45.0973	399.4125