数据集:
EleutherAI/pile
语言:
en
管道标签: 文本到文本生成
标签:
t5x
编码器-解码器
Pile-T5 Large 是一个基于编码器-解码器架构的模型,使用 T5x 库在 the Pile 数据集上训练而成。该模型通过类似于原始 T5 模型的掩码语言建模(MLM)目标进行了 200 万步训练,大约处理了 2 万亿个标记。Hugging Face 版本的 Pile-T5 Large 借鉴了 UMT5 的模型实现,因为它采用了 T5x 的可扩展模型实现,并使用了 LlamaTokenizer
。
模型详情
超参数
值
参数量
783173632
编码器层数
24
解码器层数
24
模型维度
2816
嵌入维度
1024
注意力头数
16
每个注意力头维度
64
词汇表大小
32128
序列长度
512
用途与限制
预期用途
Pile-T5 的开发主要用于研究目的。它学习了一种英语的内部表示,可用于提取对下游任务有用的特征。
除了科研用途外,您还可以根据 Apache 2.0 许可证对 Pile-T5 进行微调和适配以进行部署。该模型与 Transformers 库 兼容。如果您决定使用预训练的 Pile-T5 作为微调模型的基础,请注意您需要自行进行风险和偏见评估。
非预期用途
Pile-T5 不 适合直接部署使用。它不是一个产品,也不能在没有监督的情况下用于面向人类的交互。
Pile-T5 尚未针对常见的语言模型下游任务(如写作流派散文或商业聊天机器人)进行微调。这意味着 Pile-T5 可能 不会 像 ChatGPT 等产品那样响应给定的提示。这是因为与 Pile-T5 不同,ChatGPT 通过人类反馈强化学习(RLHF)等方法进行了微调,以更好地“理解”人类指令和对话。
该模型仅支持英语,因此不能用于翻译或生成其他语言的文本。
局限性与偏见
Pile-T5 的核心功能是接收部分被掩码标记替换的文本字符串,并预测替换这些掩码标记的标记序列。请记住,统计上最可能的标记序列不一定产生最“准确”的文本。切勿依赖 Pile-T5 生成事实准确的输出。
该模型在 the Pile 上训练,该数据集已知包含亵渎、淫秽或其他冒犯性文本。关于性别、宗教和种族的记录偏见讨论,请参阅 the Pile 论文的第 6 节 。Pile-T5 可能会产生社会不可接受或不良的文本,即使 提示本身不包含任何明确的冒犯性内容。
我们建议在向人类读者展示之前对模型的输出进行筛选。请告知您的受众您正在使用人工生成的文本。
使用方法
可以使用 AutoModelForSeq2SeqLM
功能加载 Pile-T5:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-large" )
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-large" )
训练
训练数据集
The Pile 是一个 825GiB 的通用英语数据集,由 EleutherAI 专门为训练大型语言模型创建。它包含来自 22 个不同来源的文本,大致分为五类:学术写作(如 arXiv)、互联网(如 CommonCrawl)、散文(如 Project Gutenberg)、对话(如 YouTube 字幕)和杂项(如 GitHub、Enron 电子邮件)。关于所有数据来源、方法及伦理影响的讨论,请参阅 the Pile 论文 。更多关于 The Pile 及其组成数据集的详细文档,请查阅 数据表 。The Pile 可从 官方网站 或 社区镜像 下载。
在用于训练 Pile-T5 之前,The Pile 已进行了去重处理。
训练过程
Pile-T5 的训练批次大小约为 100 万个标记(2048 个序列,每个序列 512 个标记),总共训练了 2,000,000 步。Pile-T5 使用跨度损坏目标进行训练。
训练检查点
Pile-T5 的中间检查点可在本仓库中访问。共有 200 个检查点,每 10,000 步保存一次。如需用于 T5x 库微调的 T5x 原生检查点,请参考 此处 。
训练损失(tfevent 格式)和验证困惑度(jsonl 格式)可在 此处 找到。
评估
Pile-T5 Large 在 SuperGLUE 和 CodeXGLUE 上进行了评估。其 Flan 微调版本在 Flan Held In 任务上进行了评估。结果可参见 博客文章 。
BibTeX
@misc{2024PileT5,
author = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
title = {Pile-T5},
year = {2024},
url = {https://blog.eleuther.ai/pile-t5/},
note = {博客文章},
}