long-t5-tglobal-base开源文本转换模型 - 高效处理长序列文本内容

首页

Long T5 Tglobal Base

由 google 开发

LongT5是基于T5架构的文本到文本转换模型，采用瞬态全局注意力机制高效处理长序列输入

大型语言模型英语开源协议:Apache-2.0 #长文本处理 #高效注意力机制 #文本生成

下载量 71.38k

发布时间 : 4/16/2022

模型简介

LongT5是基于编码器-解码器架构的Transformer模型，通过局部注意力或瞬态-全局注意力机制高效处理长序列（最高16,384个标记），特别适用于需要长文本处理的生成任务

模型特点

长序列处理能力

支持最高16,384个标记的长序列输入，通过稀疏注意力机制实现高效处理

瞬态全局注意力

采用创新的瞬态-全局注意力机制，在保持性能的同时降低计算复杂度

生成式预训练

使用类似Pegasus的生成式去噪预训练方法，优化文本生成能力

模型能力

长文本摘要生成

长文档问答系统

文本到文本转换

使用案例

文本摘要

长文档自动摘要

对科研论文、法律文书等长文档生成简洁摘要

在长文本摘要任务中表现优异

问答系统

长文档问答

从长文档中提取信息回答复杂问题

🚀 LongT5（瞬态全局注意力，基础大小模型）

LongT5 是一个在英文语料上预训练的模型。该模型由 Guo 等人在论文 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中提出，并首次在 LongT5 代码库中发布。所有的模型架构和配置信息可以在 Flaxformer 代码库中找到，该代码库使用了另一个 Google 研究项目 T5x。

免责声明：发布 LongT5 的团队并未为该模型撰写模型卡片，此模型卡片由 Hugging Face 团队撰写。

🚀 快速开始

LongT5 模型是在文本到文本的去噪生成设置下预训练的编码器 - 解码器 Transformer 模型（类似 Pegasus 的生成式预训练）。它是 T5 模型的扩展，支持使用两种不同的高效注意力机制之一：（1）局部注意力；（2）瞬态全局注意力。注意力稀疏模式的使用使模型能够高效处理输入序列。

LongT5 在针对文本生成（摘要、问答）进行微调时特别有效，这些任务需要处理长输入序列（最多 16384 个标记）。

✨ 主要特性

基于文本到文本的去噪生成设置进行预训练。
作为 T5 模型的扩展，支持两种高效注意力机制。
能够高效处理长输入序列，适用于文本生成任务。

📦 安装指南

暂未提及安装步骤，跳过该章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, LongT5Model

tokenizer = AutoTokenizer.from_pretrained("google/long-t5-tglobal-base")
model = LongT5Model.from_pretrained("google/long-t5-tglobal-base")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

📚 详细文档

该模型主要用于在有监督的数据集上进行微调。你可以访问模型中心查找针对你感兴趣的任务进行微调后的版本。

BibTeX 引用和引用信息

@article{guo2021longt5,
  title={LongT5: Efficient Text-To-Text Transformer for Long Sequences},
  author={Guo, Mandy and Ainslie, Joshua and Uthus, David and Ontanon, Santiago and Ni, Jianmo and Sung, Yun-Hsuan and Yang, Yinfei},
  journal={arXiv preprint arXiv:2112.07916},
  year={2021}
}