pile-t5-xxl开源语言模型 - 助力文本处理与智能问答应用

首页

Pile T5 Xxl

由 EleutherAI 开发

Pile-T5 XXL是基于T5x库在The Pile数据集上训练的编码器-解码器模型，采用类似原始T5模型的MLM目标，训练了200万步（约2万亿token）。

大型语言模型

Transformers

英语#英语文本重构 #大规模预训练 #编码器-解码器架构

下载量 44

发布时间 : 1/16/2024

模型简介

Pile-T5主要面向研究用途，其学习的英语内部表征可用于提取下游任务特征。除科研外，用户可根据Apache 2.0许可证对模型进行微调部署。

模型特点

大规模训练

在The Pile数据集上训练了200万步，约2万亿token，具有强大的语言理解能力。

高效架构

采用T5x的可扩展模型架构，借鉴了UMT5的实现，使用LlamaTokenizer。

研究导向

主要面向研究用途，适合提取下游任务特征和进行微调实验。

模型能力

文本生成

文本掩码预测

下游任务特征提取

使用案例

学术研究

语言模型研究

用于研究大规模语言模型的内部表征和行为特性。

下游任务微调

作为预训练模型，可针对特定任务进行微调。

🚀 Pile-T5 XXL

Pile-T5 XXL 是一个基于编码器 - 解码器架构的模型，它使用 T5x 库在 the Pile 数据集上进行训练。该模型采用了与原始 T5 模型类似的 MLM 目标，训练了 200 万步，处理了大约 2 万亿个标记。Pile-T5 XXL 的 Hugging Face 版本借鉴了 UMT5 的模型实现，它使用了 T5x 的可扩展模型实现，并采用了 LlamaTokenizer。

✨ 主要特性

基于 Transformer 架构：采用先进的 Transformer 架构，具备强大的语言处理能力。
大规模训练：在 825GiB 的英文通用数据集 the Pile 上进行训练，学习到丰富的语言知识。
可扩展性：使用 T5x 库的可扩展模型实现，便于进一步开发和优化。

📦 安装指南

Pile-T5 可以使用 AutoModelForSeq2SeqLM 功能进行加载：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-xxl")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-xxl")

📚 详细文档

模型详情

开发者：EleutherAI
模型类型：基于 Transformer 的语言模型
语言：英语
更多信息：可查看博客文章。关于训练数据集的详细信息，请参考 the Pile 论文及其数据手册。
许可证：Apache 2.0
联系方式：若要询问关于此模型的问题，请加入 EleutherAI Discord，并在 #release-discussion 中发布问题。在 Discord 上询问模型相关问题之前，请先阅读现有的 GPT - NeoX - 20B 文档。如需一般通信，请发送邮件至 contact@eleuther.ai。

属性	详情
模型类型	基于 Transformer 的语言模型
训练数据	the Pile，一个 825GiB 的英文通用数据集，包含来自 22 个不同来源的文本，大致分为学术写作、互联网、散文、对话和其他杂项五类。
开发者	EleutherAI
语言	英语
许可证	Apache 2.0

超参数详情

超参数	值
n_parameters	11135426560
n_{encoder layers}	24
n_{decoder layers}	24
d_model	10240
d_emb	4096
n_heads	64
d_head	64
n_vocab	32128
序列长度	512

使用与限制

预期用途

Pile - T5 主要是为研究目的而开发的。它学习英语的内部表示，可用于提取对下游任务有用的特征。除了科学用途外，只要您的使用符合 Apache 2.0 许可证，您还可以对 Pile - T5 进行进一步的微调并将其用于部署。该模型可与 Transformers 库配合使用。如果您决定使用预训练的 Pile - T5 作为微调模型的基础，请注意您需要进行自己的风险和偏差评估。

非预期用途

Pile - T5 不适合直接部署。它不是一个产品，在没有监督的情况下不能用于面向人类的交互。Pile - T5 没有针对语言模型常见的下游任务进行微调，例如撰写特定类型的散文或商业聊天机器人。这意味着 Pile - T5 可能不会像 ChatGPT 等产品那样对给定的提示做出响应。这是因为与 Pile - T5 不同，ChatGPT 使用了如基于人类反馈的强化学习（RLHF）等方法进行微调，以更好地“理解”人类指令和对话。此外，该模型仅支持英语，因此不能用于翻译或生成其他语言的文本。

局限性和偏差

Pile - T5 的核心功能是接收一个部分被掩码标记替换的文本字符串，并预测替换这些掩码标记的标记序列。请记住，统计上最可能的标记序列不一定能产生最“准确”的文本。绝不要依赖 Pile - T5 来产生事实准确的输出。该模型在 the Pile 数据集上进行训练，该数据集包含亵渎性、淫秽或其他冒犯性的文本。有关性别、宗教和种族方面的记录偏差的讨论，请参阅 the Pile 论文的第 6 节。即使提示本身不包含任何明确的冒犯性内容，Pile - T5 也可能产生社会不可接受或不良的文本。我们建议在将该模型的输出呈现给人类读者之前进行筛选。请告知您的受众您正在使用人工智能生成的文本。

训练

训练数据集

the Pile 是一个 825GiB 的英文通用数据集，由 EleutherAI 专门为训练大语言模型而创建。它包含来自 22 个不同来源的文本，大致分为五类：学术写作（如 arXiv）、互联网（如 CommonCrawl）、散文（如 Project Gutenberg）、对话（如 YouTube 字幕）和其他杂项（如 GitHub、Enron Emails）。有关所有数据源、方法以及伦理影响的详细信息，请参阅 the Pile 论文。如需了解关于 the Pile 及其组成数据集的更详细文档，请参考数据手册。the Pile 可以从官方网站或社区镜像下载。在用于训练 Pile - T5 之前，the Pile 进行了去重处理。

训练过程

Pile - T5 以大约 100 万个标记的批量大小（每个批次包含 2048 个长度为 512 的序列）进行训练，总共训练了 200 万步。训练采用了跨度损坏目标。

训练检查点

Pile - T5 的中间检查点可以在本仓库中访问。总共有 200 个检查点，间隔为 10000 步。对于可用于使用 T5x 库进行微调的 T5x 原生检查点，请参考此处。训练损失（tfevent 格式）和验证困惑度（jsonl 格式）可以在此处找到。

评估

Pile - T5 XXL 在 SuperGLUE、CodeXGLUE 上进行了评估。一个经过 Flan 微调的版本在 Flan Held In 任务、MMLU 和 BBH 上进行了评估。评估结果可在博客文章中查看。

BibTeX

@misc{2024PileT5,
  author  = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
  title   = {Pile-T5},
  year    = {2024},
  url     = {https://blog.eleuther.ai/pile-t5/},
  note    = {Blog post},
}