long-t5-tglobal-xl开源文本处理模型 - 免费部署支持长序列文本输入

首页

Long T5 Tglobal Xl

由 google 开发

LongT5 是一个基于 Transformer 的文本到文本模型，专门设计用于处理长序列输入，最高支持 16384 个标记。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #长序列处理 #瞬态全局注意力 #文本生成

下载量 336

发布时间 : 6/14/2022

模型简介

LongT5 是 T5 模型的扩展版本，采用编码器-解码器架构，通过瞬态全局注意力机制高效处理长序列文本，特别适用于需要处理长输入的任务如摘要生成和问答。

模型特点

瞬态全局注意力

通过稀疏注意力模式高效处理长序列，最高支持 16384 个标记的输入。

文本到文本框架

采用统一的文本到文本转换框架，支持多种生成任务。

基于 Pegasus 的预训练

使用类似 Pegasus 的去噪生成式预训练方法。

模型能力

长文本摘要生成

长文本问答

文本去噪生成

使用案例

文本摘要

长文档摘要

从长文档（如研究报告或新闻文章）中生成简洁摘要。

问答系统

长上下文问答

基于长文档内容回答复杂问题。

🚀 LongT5（瞬态全局注意力，XL 大小模型）

LongT5 是一个在英文语料上预训练的模型。该模型由 Guo 等人在论文 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中提出，并首次在 LongT5 仓库中发布。所有的模型架构和配置信息可在 Flaxformer 仓库中找到，该仓库使用了另一个谷歌研究项目仓库 T5x。

声明：发布 LongT5 的团队并未为该模型撰写模型卡片，此模型卡片由 Hugging Face 团队撰写。

✨ 主要特性

LongT5 模型是一个编码器 - 解码器架构的 Transformer 模型，在文本到文本的去噪生成设置中进行预训练（类似 Pegasus 的生成式预训练）。
它是 T5 模型的扩展，支持使用两种不同的高效注意力机制：（1）局部注意力；（2）瞬态全局注意力。注意力稀疏模式的使用使模型能够高效处理输入序列。
在针对文本生成任务（如摘要生成、问答）进行微调时，LongT5 特别有效，因为这些任务需要处理长输入序列（最多可达 16384 个标记）。

🚀 快速开始

该模型主要用于在有监督的数据集上进行微调。你可以查看模型中心以找到针对你感兴趣的任务进行微调后的版本。

💻 使用示例

基础用法

from transformers import AutoTokenizer, LongT5Model

tokenizer = AutoTokenizer.from_pretrained("google/long-t5-tglobal-xl")
model = LongT5Model.from_pretrained("google/long-t5-tglobal-xl")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

📚 详细文档

BibTeX 引用和引用信息

@article{guo2021longt5,
  title={LongT5: Efficient Text-To-Text Transformer for Long Sequences},
  author={Guo, Mandy and Ainslie, Joshua and Uthus, David and Ontanon, Santiago and Ni, Jianmo and Sung, Yun-Hsuan and Yang, Yinfei},
  journal={arXiv preprint arXiv:2112.07916},
  year={2021}
}