Pythia-12B开源语言模型 - 含120亿参数助力大语言模型科研

首页

Pythia 12b

由 EleutherAI 开发

Pythia-12B是EleutherAI开发的可扩展语言模型套件中的最大模型，拥有120亿参数，专为促进大语言模型科学研究而设计

大型语言模型

Transformers

英语开源协议:Apache-2.0 #可解释性研究 #大语言模型套件 #多检查点追踪

下载量 9,938

发布时间 : 2/28/2023

模型简介

Pythia-12B是基于Transformer架构的大规模语言模型，是Pythia套件中最大的模型。它主要用于语言模型行为和功能的研究，特别是在可解释性研究方面。

模型特点

科学研究的可解释性

专为促进大语言模型科学研究而设计，特别关注模型行为的可解释性

完整训练检查点

提供154个训练检查点，包括初始状态和密集间隔的中间状态，便于研究训练动态

标准化训练

所有Pythia模型在完全相同的数据和顺序下训练，便于对比研究

模型能力

英语文本生成

语言模型行为研究

可解释性分析

使用案例

科学研究

语言模型行为研究

研究大规模语言模型在不同训练阶段的行为变化

提供154个检查点便于分析训练动态

可解释性研究

分析模型内部机制和决策过程

标准化的模型设计便于对比实验

🚀 Pythia-12B

Pythia Scaling Suite 是为便于可解释性研究而开发的一系列模型集合(查看论文)。它包含两组各八个模型，模型大小分别为 70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B。对于每个大小，都有两个模型：一个在 Pile 数据集上训练，另一个在对 Pile 数据集进行全局去重后训练。所有 8 种模型大小都在完全相同的数据上，以完全相同的顺序进行训练。我们还为每个模型提供了 154 个中间检查点，这些检查点作为分支托管在 Hugging Face 上。

Pythia 模型套件是特意为推动大语言模型的科学研究而设计的，尤其是可解释性研究。尽管设计目标并非以提升下游性能为核心，但我们发现这些模型达到或超越了类似大小的模型，如 OPT 和 GPT - Neo 套件中的模型。

过往早期版本及命名规则

此前，我们向公众发布了 Pythia 套件的早期版本。然而，我们决定重新训练该模型套件，以解决一些超参数差异问题。此模型卡片列出了更改内容；有关进一步讨论，请参阅 Pythia 论文的附录 B。我们发现两个 Pythia 版本在基准测试性能上没有差异。旧模型仍然可用，但如果您刚开始使用 Pythia，我们建议使用重新训练的套件。
这是当前版本。

请注意，Pythia 套件中的所有模型在 2023 年 1 月进行了重命名。为清晰起见，此模型卡片中提供了一个对比新旧名称的表格，以及确切的参数数量。

🚀 快速开始

Pythia 模型可以通过以下代码加载和使用，以下是 pythia - 70m - deduped 第三个检查点的示例：

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

版本/分支 step143000 与每个模型 main 分支上的模型检查点完全对应。
有关如何使用所有 Pythia 模型的更多信息，请参阅 GitHub 上的文档。

✨ 主要特性

可解释性研究助力：Pythia Scaling Suite 专门为促进大语言模型的可解释性研究而开发，包含不同大小的模型，方便研究人员进行对比和分析。
统一训练数据：所有模型都在相同的数据上以相同的顺序进行训练，确保了实验的一致性和可比性。
丰富的检查点：每个模型提供 154 个中间检查点，方便研究人员观察模型在不同训练阶段的表现。
性能表现出色：尽管设计重点并非下游性能，但模型在基准测试中达到或超越了类似大小的其他模型。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

高级用法

文档中未提及高级用法相关代码，故跳过此部分。

📚 详细文档

模型详情

属性	详情
开发者	EleutherAI
模型类型	基于 Transformer 的语言模型
语言	英语
更多信息	Pythia 的 GitHub 仓库提供训练过程、配置文件和使用细节。查看论文了解更多评估和实现细节。
库	[GPT - NeoX](https://github.com/EleutherAI/gpt - neox)
许可证	Apache 2.0
联系方式	若有关于此模型的问题，请加入 EleutherAI Discord，并在 `#release - discussion` 中发布。在 EleutherAI Discord 询问之前，请先阅读现有的 Pythia 文档。如需一般通信，请联系 contact@eleuther.ai。

Pythia 模型	非嵌入参数	层数	模型维度	头数	批量大小	学习率	等效模型
70M	18,915,328	6	512	8	2M	1.0 x 10^-3	—
160M	85,056,000	12	768	12	2M	6.0 x 10^-4	GPT - Neo 125M, OPT - 125M
410M	302,311,424	24	1024	16	2M	3.0 x 10^-4	OPT - 350M
1.0B	805,736,448	16	2048	8	2M	3.0 x 10^-4	—
1.4B	1,208,602,624	24	2048	16	2M	2.0 x 10^-4	GPT - Neo 1.3B, OPT - 1.3B
2.8B	2,517,652,480	32	2560	32	2M	1.6 x 10^-4	GPT - Neo 2.7B, OPT - 2.7B
6.9B	6,444,163,072	32	4096	32	2M	1.2 x 10^-4	OPT - 6.7B
12B	11,327,027,200	36	5120	40	2M	1.2 x 10^-4	—

*Pythia 套件* 的工程细节。给定大小的去重和未去重模型具有相同的超参数。“等效” 模型具有完全相同的架构和相同数量的非嵌入参数。

使用与限制

预期用途

Pythia 的主要预期用途是用于大语言模型的行为、功能和局限性研究。该套件旨在为进行科学实验提供一个可控的环境。我们还为每个模型提供了 154 个检查点：初始 step0、10 个对数间隔的检查点 step{1,2,4...512} 以及从 step1000 到 step143000 的 143 个均匀间隔的检查点。这些检查点作为分支托管在 Hugging Face 上。请注意，分支 143000 与每个模型 main 分支上的模型检查点完全对应。

只要您的使用符合 Apache 2.0 许可证，您也可以进一步微调并调整 Pythia - 12B 以进行部署。Pythia 模型可与 Hugging Face Transformers 库配合使用。如果您决定使用预训练的 Pythia - 12B 作为微调模型的基础，请自行进行风险和偏差评估。

非预期用途

Pythia 套件不用于部署。它本身不是一个产品，不能用于面向人类的交互。例如，该模型可能会生成有害或冒犯性的文本。请评估与您特定用例相关的风险。

Pythia 模型仅支持英语，不适用于翻译或生成其他语言的文本。

Pythia - 12B 未针对语言模型常见的下游应用场景进行微调，如撰写特定类型的散文或商业聊天机器人。这意味着 Pythia - 12B 不会像 ChatGPT 这样的产品那样对给定的提示做出响应。这是因为与该模型不同，ChatGPT 使用了诸如基于人类反馈的强化学习 (RLHF) 等方法进行微调，以更好地 “遵循” 人类指令。

局限性和偏差

大语言模型的核心功能是接收一段文本并预测下一个标记。模型使用的标记不一定能产生最 “准确” 的文本。切勿依赖 Pythia - 12B 生成事实准确的输出。

该模型在 Pile 数据集上进行训练，该数据集已知包含亵渎性和淫秽或其他冒犯性的文本。有关性别、宗教和种族方面的记录偏差的讨论，请参阅 Pile 论文的第 6 节。Pythia - 12B 可能会生成社会不可接受或不良的文本，即使提示本身不包含任何明确的冒犯性内容。

如果您计划使用通过例如托管推理 API 生成的文本，我们建议在向他人展示之前由人工对该语言模型的输出进行审核。请告知您的受众该文本是由 Pythia - 12B 生成的。

训练

训练数据

Pile 数据集是一个 825GiB 的通用英语数据集。它由 EleutherAI 专门为训练大语言模型而创建。它包含来自 22 个不同来源的文本，大致分为五类：学术写作（如 arXiv）、互联网（如 CommonCrawl）、散文（如 Project Gutenberg）、对话（如 YouTube 字幕）和其他（如 GitHub、安然电子邮件）。有关所有数据源的细分、方法和伦理影响的讨论，请参阅 Pile 论文。有关 Pile 及其组成数据集的更详细文档，请参阅数据手册。Pile 数据集可以从官方网站或 [社区镜像](https://the - eye.eu/public/AI/pile/) 下载。
在用于训练 Pythia - 12B 之前，Pile 数据集未进行去重处理。

训练过程

所有模型都在完全相同的数据上，以完全相同的顺序进行训练。每个模型在训练期间处理了 299,892,736,000 个标记，并且每个模型每 2,097,152,000 个标记保存 143 个检查点，这些检查点在训练过程中均匀分布，从 step1000 到 step143000（与 main 相同）。此外，我们还提供了频繁的早期检查点：step0 和 step{1,2,4...512}。这相当于未去重模型在 Pile 数据集上训练不到 1 个周期，而去重后的 Pile 数据集上训练约 1.5 个周期。

所有 Pythia 模型以 2M（2,097,152 个标记）的批量大小训练了 143000 步。
有关训练过程的更多详细信息，包括 [如何复现训练](https://github.com/EleutherAI/pythia/blob/main/README.md#reproducing - training)，请参阅 GitHub。
Pythia 使用与 [GPT - NeoX - 20B](https://huggingface.co/EleutherAI/gpt - neox - 20b) 相同的分词器。

评估

所有 16 个 Pythia 模型都使用 [LM Evaluation Harness](https://github.com/EleutherAI/lm - evaluation - harness) 进行了评估。您可以在 GitHub 仓库的 results/json/* 中按模型和步骤访问评估结果。
展开以下部分，查看所有 Pythia 和 Pythia - deduped 模型与 OPT 和 BLOOM 的评估结果对比图。

LAMBADA – OpenAI

物理交互：问答 (PIQA)

WinoGrande

AI2 推理挑战 — 简单集

SciQ

变更日志

此部分比较了之前发布的 Pythia v0 与当前模型之间的差异。有关这些更改及其背后动机的进一步讨论，请参阅 Pythia 论文的附录 B。我们发现重新训练 Pythia 对基准测试性能没有影响。

所有模型现在都以 2M 标记的统一批量大小进行训练。此前，参数大小为 160M、410M 和 1.4B 的模型以 4M 标记的批量大小进行训练。
除了每 1000 个训练步骤保存检查点外，我们还在初始化时（步骤 0）和步骤 {1,2,4,8,16,32,64,128,256,512} 添加了检查点。
新的重新训练套件中使用了 Flash Attention。
我们纠正了原始套件中存在的一个小不一致问题：所有参数大小为 2.8B 或更小的模型的学习率 (LR) 调度会衰减到起始 LR 率的 10% 作为最小 LR，但 6.9B 和 12B 模型使用的 LR 调度会衰减到最小 LR 为 0。在重新训练中，我们纠正了这个不一致问题：所有模型现在都以 LR 衰减到最大 LR 的 0.1 倍进行训练。

命名规则和参数数量

Pythia 模型在 2023 年 1 月进行了重命名。旧的命名规则可能仍会意外地出现在一些文档中。当前的命名规则（70M、160M 等）基于总参数数量。

当前 Pythia 后缀	旧后缀	总参数	非嵌入参数
70M	19M	70,426,624	18,915,328
160M	125M	162,322,944	85,056,000
410M	350M	405,334,016	302,311,424
1B	800M	1,011,781,632	805,736,448
1.4B	1.3B	1,414,647,808	1,208,602,624
2.8B	2.7B	2,775,208,960	2,517,652,480
6.9B	6.7B	6,857,302,016	6,444,163,072
12B	13B	11,846,072,320	11,327,027,200