Long T5 Tglobal Large Pubmed 3k Booksum 16384 WIP

L

Long T5 Tglobal Large Pubmed 3k Booksum 16384 WIP

由 pszemraj 开发

基于Long-T5架构的大规模摘要生成模型，专门针对长文档摘要任务优化，支持16384个token的上下文长度。

开源协议:Apache-2.0 #长文本摘要 #书籍内容浓缩 #高ROUGE得分

下载量 65

发布时间 : 6/25/2022

模型简介

该模型是基于T5架构改进的长文本摘要生成模型，特别针对书籍摘要和长文档摘要任务进行了优化。它在PubMed和BookSum数据集上进行了训练，能够处理长达16384个token的输入文本。

模型特点

长文本处理能力

支持16384个token的超长上下文处理，适合书籍和长文档摘要

多领域适应性

在医学文献(PubMed)和书籍摘要(BookSum)数据集上训练，适用于多种专业领域

高性能摘要生成

在BookSum测试集上达到35.9969的ROUGE-1分数，表现出色

模型能力

长文本摘要生成

书籍内容总结

专业文献摘要

多段落文本浓缩

使用案例

学术研究

医学文献摘要

自动生成PubMed医学研究论文的简明摘要

在专业领域保持较高的信息保留率

出版行业

书籍内容摘要

为长篇书籍生成内容摘要和章节概要

在BookSum数据集上表现优异

商业分析

长报告浓缩

将商业报告、市场分析等长文档浓缩为执行摘要

保留关键信息和数据要点

🚀 long-t5-tglobal-large-pubmed-3k-booksum-16384-WIP

这是一个专注于文本摘要任务的模型检查点，基于特定数据集训练，能处理较长输入文本，为长文档摘要提供解决方案。

🚀 快速开始

⚠️ 重要提示

此模型仍在开发中（WIP），尚未完成或收敛，但分享出来或许能为其他人节省一些时间。

✨ 主要特性

基于 Stancld/longt5-tglobal-large-16384-pubmed-3k_steps 进行约 26 个周期的训练，数据集为 kmfoda/booksum。
训练期间最大输入长度根据 GPU 可用性在 8192 到 16384 个标记之间变化，在最后 10 多个周期的训练中，最大输入长度为 16384 个标记。

📚 详细文档

更新记录

2022 年 7 月 26 日：增加两个周期的训练，指标开始接近调优更好的 base 变体。
2022 年 7 月 8 日：添加在 A100 上训练约 4 个周期的检查点，相当于功能批量大小为 128 的约 350 步。
2022 年 7 月 4 日：添加经过六个额外周期训练的检查点，数据集摘要输出过滤为 1024 标记，解决了之前摘要过短的问题。

对比信息

与 pszemraj/led-large-book-summary 进行对比。
- 推理 API 已禁用，因为计算量过大。

模型信息

属性	详情
模型类型	文本摘要模型
训练数据	kmfoda/booksum

评估指标

kmfoda/booksum 数据集

指标类型	指标名称	值
rouge	ROUGE - 1	35.9969
rouge	ROUGE - 2	5.9272
rouge	ROUGE - L	16.0136
rouge	ROUGE - LSUM	32.941
loss	loss	2.9339466094970703
gen_len	gen_len	283.7198

samsum 数据集

指标类型	指标名称	值
rouge	ROUGE - 1	26.2412
rouge	ROUGE - 2	5.9791
rouge	ROUGE - L	18.7467
rouge	ROUGE - LSUM	22.5566
loss	loss	2.877626895904541
gen_len	gen_len	47.6532

xsum 数据集

指标类型	指标名称	值
rouge	ROUGE - 1	19.3209
rouge	ROUGE - 2	2.7978
rouge	ROUGE - L	12.5816
rouge	ROUGE - LSUM	15.0239
loss	loss	4.483709335327148
gen_len	gen_len	82.729

billsum 数据集

指标类型	指标名称	值
rouge	ROUGE - 1	36.5688
rouge	ROUGE - 2	12.5849
rouge	ROUGE - L	22.2461
rouge	ROUGE - LSUM	30.6507
loss	loss	2.6456267833709717
gen_len	gen_len	139.0398

launch/gov_report 数据集

指标类型	指标名称	值
rouge	ROUGE - 1	37.0248
rouge	ROUGE - 2	9.0446
rouge	ROUGE - L	18.0521
rouge	ROUGE - LSUM	33.4723
loss	loss	3.381495237350464
gen_len	gen_len	211.2066

📄 许可证

本模型采用 Apache - 2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24