Pile-T5 Large开源模型 - 免费实现英语文本到文本高质量生成

首页

Pile T5 Large

由 EleutherAI 开发

Pile-T5 Large 是基于 T5x 库在 The Pile 数据集上训练的编码器-解码器模型，主要用于英语文本到文本生成任务。

大型语言模型

Transformers

英语#英语文本生成 #编码器-解码器架构 #大规模预训练

下载量 112

发布时间 : 9/1/2023

模型简介

Pile-T5 Large 是一个基于 Transformer 的语言模型，通过掩码语言建模目标训练，适用于英语文本生成和特征提取任务。

模型特点

大规模训练数据

在 825GiB 的 The Pile 数据集上训练，包含多样化的英语文本来源。

编码器-解码器架构

采用 T5 风格的编码器-解码器结构，适合序列到序列任务。

长序列处理能力

支持 512 标记的序列长度，适合处理较长文本。

模型能力

文本生成

特征提取

掩码语言建模

使用案例

研究

语言模型研究

用于研究大规模语言模型的行为和特性。

下游任务特征提取

作为基础模型提取特征用于其他 NLP 任务。

🚀 Pile-T5 Large

Pile-T5 Large是一个编码器-解码器模型，它使用T5x库在the Pile数据集上进行训练。该模型采用类似于原始T5模型的MLM目标，训练了200万步，大约处理了2万亿个标记。Pile-T5 Large的Hugging Face版本借鉴了UMT5的模型实现，它使用了T5x可扩展的模型实现，并采用了LlamaTokenizer。

✨ 主要特性

基于Transformer架构的语言模型，在大规模英文数据集上训练。
采用T5x库进行训练，具有可扩展性。
借鉴UMT5的模型实现，使用LlamaTokenizer。

📦 安装指南

Pile-T5可以使用AutoModelForSeq2SeqLM功能进行加载：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-large")

📚 详细文档

模型详情

开发者：EleutherAI
模型类型：基于Transformer的语言模型
语言：英语
更多信息：博客文章。有关训练数据集的详细信息，请参阅the Pile论文及其数据说明书。
许可证：Apache 2.0
联系方式：若要询问有关此模型的问题，请加入EleutherAI Discord，并在#release-discussion中发布。在Discord上询问模型相关问题之前，请先阅读现有的GPT-NeoX - 20B文档。如需一般通信，请发送邮件至contact@eleuther.ai。

属性	详情
模型类型	基于Transformer的语言模型
训练数据	the Pile数据集，这是一个825GiB的英文通用数据集，包含来自22个不同来源的文本，大致分为学术写作、互联网、散文、对话和其他杂项五类。

模型超参数

超参数	值
n_parameters	783173632
n_{encoder layers}	24
n_{decoder layers}	24
d_model	2816
d_emb	1024
n_heads	16
d_head	64
n_vocab	32128
序列长度	512

使用场景与限制

预期用途

Pile-T5主要为研究目的而开发。它学习英语的内部表示，可用于提取对下游任务有用的特征。除科学用途外，只要使用符合Apache 2.0许可证，你还可以对Pile-T5进行进一步微调并部署。该模型可与Transformers库配合使用。如果你决定使用预训练的Pile-T5作为微调模型的基础，请自行进行风险和偏差评估。

非预期用途

Pile-T5 不适合 直接部署。它不是一个产品，在没有监督的情况下不能用于面向人类的交互。Pile-T5没有针对语言模型常见的下游任务进行微调，如撰写特定体裁的散文或商业聊天机器人。这意味着Pile-T5可能不会像ChatGPT等产品那样对给定提示做出响应。因为与Pile-T5不同，ChatGPT使用了人类反馈强化学习（RLHF）等方法进行微调，以更好地“理解”人类指令和对话。此外，该模型仅支持英语，因此不能用于翻译或生成其他语言的文本。

局限性和偏差

Pile-T5的核心功能是对部分被掩码标记替换的文本字符串进行处理，并预测替换这些掩码标记的标记序列。但请记住，统计上最可能的标记序列不一定能产生最“准确”的文本。切勿依赖Pile-T5生成事实准确的输出。该模型在the Pile数据集上进行训练，该数据集包含亵渎性、淫秽或其他冒犯性的文本。有关性别、宗教和种族方面的记录偏差讨论，请参阅the Pile论文的第6节。即使提示本身不包含任何明确的冒犯性内容，Pile-T5也可能产生社会不可接受或不良的文本。我们建议在将该模型的输出呈现给人类读者之前进行筛选，并告知受众你使用的是人工智能生成的文本。

训练

训练数据集

the Pile是一个825GiB的英文通用数据集，由EleutherAI专门为训练大语言模型而创建。它包含来自22个不同来源的文本，大致分为学术写作（如arXiv）、互联网（如CommonCrawl）、散文（如Project Gutenberg）、对话（如YouTube字幕）和其他杂项（如GitHub、Enron Emails）五类。有关所有数据源、方法和伦理影响的详细信息，请参阅the Pile论文。如需更详细的文档，请查阅数据说明书。the Pile数据集可从官方网站或社区镜像下载。在用于训练Pile-T5之前，the Pile数据集进行了去重处理。

训练过程

Pile-T5以约100万个标记（每个批次2048个长度为512的序列）的批量大小进行训练，总共训练了200万步。训练采用了跨度损坏目标。

训练检查点

Pile-T5的中间检查点可在本仓库中获取。总共有200个检查点，间隔为10000步。如需可用于使用T5x库进行微调的T5x原生检查点，请参考此处。训练损失（tfevent格式）和验证困惑度（jsonl格式）可在此处找到。

评估

Pile-T5 Large在SuperGLUE、CodeXGLUE上进行了评估。一个经过Flan微调的版本在Flan Held In任务上进行了评估。结果可在博客文章中查看。

BibTeX

@misc{2024PileT5,
  author  = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
  title   = {Pile-T5},
  year    = {2024},
  url     = {https://blog.eleuther.ai/pile-t5/},
  note    = {Blog post},
}