long-t5-tglobal-base-16384-booksum-V11-big_patent-V2开源模型 - 轻松搞定书籍及文档长文本摘要

首页

Long T5 Tglobal Base 16384 Booksum V11 Big Patent V2

由 pszemraj 开发

基于T5架构的长文本摘要生成模型，支持处理长达16384个token的输入，适用于书籍和技术文档摘要任务。

文本生成

Transformers

开源协议:Bsd-3-clause #长文档摘要 #技术文档处理 #16384长文本

下载量 21

发布时间 : 7/31/2022

模型简介

该模型是基于T5架构优化的长文本摘要生成模型，专门针对书籍和技术文档的摘要任务进行了训练。它能够处理长达16384个token的输入序列，适用于生成书籍章节、技术专利等长文档的简洁摘要。

模型特点

超长上下文处理

支持处理长达16384个token的输入序列，适合书籍等长文档摘要

多领域适应

同时在书籍摘要(kmfoda/booksum)和技术专利(big_patent)数据集上训练

高效注意力机制

采用TGlobal注意力变体，优化长序列处理效率

模型能力

长文本摘要生成

书籍章节摘要

技术文档摘要

内容浓缩

使用案例

出版与教育

书籍章节摘要

为书籍章节生成简洁的内容摘要

在booksum数据集上ROUGE-1得分23.14

技术文档处理

专利文档摘要

为技术专利文档生成关键内容摘要

在big_patent数据集上训练优化

🚀 pszemraj/long - t5 - tglobal - base - 16384 - booksum - V11 - big_patent - V2模型

该模型主要用于文本摘要任务，能够处理长文档的摘要生成，在多个数据集上进行了训练和测试，具有一定的性能表现。

✨ 主要特性

适用任务广泛：适用于多种文本摘要任务，如书籍、科学论文、讲座等不同类型文本的摘要生成。
处理长序列：能够处理较长的文本序列，对于长文档的摘要生成有较好的效果。
多数据集训练：在多个数据集上进行训练，如kmfoda/booksum、big_patent等，提升了模型的泛化能力。
多指标评估：使用多种评估指标，如ROUGE系列指标，对模型的性能进行了全面评估。

📦 安装指南

文档未提供具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

文档未提供基础用法的代码示例，故跳过此部分。

高级用法

文档未提供高级用法的代码示例，故跳过此部分。

📚 详细文档

模型参数

属性	详情
最大长度 (`max_length`)	64
最小长度 (`min_length`)	8
无重复n - gram大小 (`no_repeat_ngram_size`)	3
提前停止 (`early_stopping`)	true
重复惩罚 (`repetition_penalty`)	3.5
长度惩罚 (`length_penalty`)	0.3
编码器无重复n - gram大小 (`encoder_no_repeat_ngram_size`)	3
束搜索数量 (`num_beams`)	4

模型测试结果

数据集：kmfoda/booksum
- ROUGE - 1：23.1439
- ROUGE - 2：3.2393
- ROUGE - L：12.7038
- ROUGE - LSUM：19.8101
- 损失 (loss)：2.766307830810547
- 生成长度 (gen_len)：63.4493
数据集：samsum
- ROUGE - 1：26.8026
- ROUGE - 2：6.0656
- ROUGE - L：20.0098
- ROUGE - LSUM：21.9115
- 损失 (loss)：2.317471981048584
- 生成长度 (gen_len)：19.1111
数据集：xsum
- ROUGE - 1：25.2061
- ROUGE - 2：4.7048
- ROUGE - L：17.8593
- ROUGE - LSUM：18.0798
- 损失 (loss)：3.003053665161133
- 生成长度 (gen_len)：27.4815

示例文本及标题

地震相关文本：“large earthquakes along a given fault segment do not occur at random intervals because it takes time to accumulate the strain energy for the rupture. …”，示例标题为“earthquakes”
科学论文相关文本：“A typical feed - forward neural field algorithm. …”，示例标题为“scientific paper”
转录音频讲座相关文本：“Is a else or outside the cob and tree written being of early client rope …”，示例标题为“transcribed audio - lecture”
BigBird博客介绍相关文本：“Transformer - based models have shown to be very useful for many NLP tasks. …”，示例标题为“bigbird blog intro”
Rick and Morty相关文本：“To be fair, you have to have a very high IQ to understand Rick and Morty. …”，示例标题为“Richard & Mortimer”