Pile-T5-base开源模型 - 基于特定数据集训练实现高效编码解码应用

首页

Pile T5 Base

由 EleutherAI 开发

Pile-T5基础版是基于T5x库在The Pile数据集上训练的编码器-解码器模型，通过MLM目标训练了200万步，约2万亿token。

大型语言模型

Transformers

英语#英语文本重构 #编码器-解码器架构 #大规模预训练

下载量 50

发布时间 : 1/17/2024

模型简介

Pile-T5主要面向研究用途，其学习的英语内部表征可用于提取下游任务特征。兼容Transformers库，支持微调部署。

模型特点

大规模预训练

在825GB的The Pile数据集上训练，覆盖22类英语文本来源

T5x架构优化

采用T5x可扩展模型架构，借鉴UMT5实现并使用LlamaTokenizer

研究导向设计

专注于提取文本表征能力，适合下游任务微调而非直接部署

模型能力

文本生成

掩码语言建模

文本特征提取

使用案例

学术研究

语言模型研究

用于研究大规模预训练模型的行为和表征学习

下游任务基准测试

作为基础模型在SuperGLUE等基准上进行微调评估

性能指标见官方博客

工业应用

定制化NLP解决方案

基于Apache 2.0许可证进行领域适配微调

需自行评估风险与偏见

🚀 Pile-T5 Base

Pile-T5 Base 是一个基于编码器-解码器架构的模型，它使用 T5x 库在 the Pile 数据集上进行训练。该模型采用了类似于原始 T5 模型的 MLM 目标，训练了 200 万步，处理了大约 2 万亿个标记。Pile-T5 Base 的 Hugging Face 版本借鉴了 UMT5 的模型实现，它使用了 T5x 可扩展的模型实现，并采用了 LlamaTokenizer。

🚀 快速开始

Pile-T5 可以使用 AutoModelForSeq2SeqLM 功能进行加载：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-base")

✨ 主要特性

基于编码器-解码器架构，在大规模文本数据集上训练。
采用 MLM 目标进行训练，学习语言的内在表示。
借鉴 UMT5 模型实现，使用 LlamaTokenizer。

📚 详细文档

模型详情

属性	详情
开发者	EleutherAI
模型类型	基于 Transformer 的语言模型
语言	英语
更多信息	博客文章。有关训练数据集的详细信息，请参阅 the Pile 论文及其数据说明书。
许可证	Apache 2.0
联系方式	若要询问有关此模型的问题，请加入 EleutherAI Discord，并在 `#release-discussion` 中发布。在 Discord 上询问模型相关问题之前，请先阅读现有的 GPT-NeoX-20B 文档。如需一般通信，请发送邮件至 contact@eleuther.ai。

超参数	值
n_parameters	247586304
n_{encoder layers}	12
n_{decoder layers}	12
d_model	2048
d_emb	768
n_heads	12
d_head	64
n_vocab	32128
序列长度	512

使用场景与限制

预期用途

Pile-T5 主要为研究目的而开发。它学习英语的内在表示，可用于提取对下游任务有用的特征。除科学用途外，只要符合 Apache 2.0 许可证，你还可以对 Pile-T5 进行进一步微调并部署。该模型可与 Transformers 库配合使用。如果你决定使用预训练的 Pile-T5 作为微调模型的基础，请进行自己的风险和偏差评估。

非预期用途

Pile-T5 不适合 直接部署。它不是一个产品，在没有监督的情况下不能用于面向人类的交互。Pile-T5 没有针对语言模型常见的下游任务进行微调，如撰写特定体裁的散文或商业聊天机器人。这意味着 Pile-T5 可能不会像 ChatGPT 等产品那样对给定提示做出响应。这是因为与 Pile-T5 不同，ChatGPT 使用了人类反馈强化学习（RLHF）等方法进行微调，以更好地“理解”人类指令和对话。此模型仅支持英语，因此不能用于翻译或生成其他语言的文本。

限制与偏差

Pile-T5 的核心功能是对部分被掩码标记替换的文本字符串进行预测，以生成替换这些掩码标记的标记序列。请记住，统计上最可能的标记序列不一定能产生最“准确”的文本。切勿依赖 Pile-T5 生成事实准确的输出。该模型在 the Pile 数据集上进行训练，该数据集包含亵渎性和低俗或冒犯性的文本。有关性别、宗教和种族方面的记录偏差讨论，请参阅 the Pile 论文的第 6 节。即使提示本身不包含任何明确的冒犯性内容，Pile-T5 也可能产生社会不可接受或不良的文本。我们建议在将此模型的输出呈现给人类读者之前进行筛选。请告知你的受众你使用的是人工智能生成的文本。

训练

训练数据集

The Pile 是一个 825GiB 的英语通用数据集，由 EleutherAI 专门为训练大语言模型而创建。它包含来自 22 个不同来源的文本，大致分为五类：学术写作（如 arXiv）、互联网（如 CommonCrawl）、散文（如 Project Gutenberg）、对话（如 YouTube 字幕）和其他（如 GitHub、安然邮件）。有关所有数据源的细分、方法和伦理影响的讨论，请参阅 the Pile 论文。有关 The Pile 及其组件数据集的更详细文档，请参考数据说明书。The Pile 可以从官方网站或社区镜像下载。在用于训练 Pile-T5 之前，The Pile 进行了去重处理。

训练过程

Pile-T5 的训练批次大小约为 100 万个标记（每个批次包含 2048 个长度为 512 的序列），总共训练了 200 万步。训练采用了跨度损坏目标。

训练检查点

Pile-T5 的中间检查点可在本仓库中获取。总共有 200 个检查点，间隔为 10000 步。对于可用于使用 T5x 库进行微调的 T5x 原生检查点，请参考此处。训练损失（tfevent 格式）和验证困惑度（jsonl 格式）可在此处找到。

评估

Pile-T5 Base 在 SuperGLUE、CodeXGLUE 上进行了评估。一个经过 Flan 微调的版本在 Flan Held In 任务上进行了评估。结果可在博客文章中查看。

📄 许可证

本项目采用 Apache 2.0 许可证。

📚 引用

@misc{2024PileT5,
  author  = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
  title   = {Pile-T5},
  year    = {2024},
  url     = {https://blog.eleuther.ai/pile-t5/},
  note    = {Blog post},
}