Pythia-410m开源语言模型 - 助力可解释性研究，多参数多检查点可选

首页

Pythia 410m

由 EleutherAI 开发

Pythia是EleutherAI开发的一系列因果语言模型，专为可解释性研究设计，包含从7000万到120亿参数的8种规模，提供154个训练检查点

大型语言模型

Transformers

英语开源协议:Apache-2.0 #因果语言模型 #可解释性研究 #多检查点追踪

下载量 83.28k

发布时间 : 2/13/2023

模型简介

基于Transformer的英语语言模型，采用GPT-NeoX架构，训练于Pile数据集，主要用于研究大语言模型的行为和功能

模型特点

完整训练检查点

提供154个训练中间检查点，便于研究模型演化过程

科学实验设计

所有规模模型使用相同训练数据和顺序，确保实验可比性

性能对标

达到或超越同类规模模型(如OPT、GPT-Neo)的性能

去重对比

每个规模提供原始数据和全局去重数据训练的两种版本

模型能力

英语文本生成

语言模型行为研究

模型可解释性分析

使用案例

学术研究

语言模型行为分析

研究模型在不同训练阶段的参数变化规律

可通过154个检查点追踪模型能力发展

去重数据影响研究

比较原始数据与去重数据训练模型的性能差异

技术验证

中等规模模型基准测试

作为4亿参数级别的参考模型进行技术对比

性能优于同类OPT-350M模型

🚀 Pythia-410M

“Pythia Scaling Suite”是一组旨在促进可解释性研究的模型集合。它包含两组各八个不同规模的模型，为大语言模型的研究提供了丰富资源。

🚀 快速开始

Pythia模型可以通过以下代码加载和使用，以下是pythia - 70m - deduped第三个检查点的示例：

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

修订/分支step143000 与每个模型main分支上的模型检查点完全对应。有关如何使用所有Pythia模型的更多信息，请参阅 GitHub上的文档。

✨ 主要特性

促进研究：Pythia Scaling Suite 专门为促进大语言模型的科学研究而设计，尤其是可解释性研究。
模型多样：包含两组各八个不同规模的模型（70M、160M、410M、1B、1.4B、2.8B、6.9B和12B），每个规模都有在Pile数据集上训练和在全局去重后的Pile数据集上训练的两个模型。
检查点丰富：每个模型提供154个中间检查点，托管在Hugging Face上作为分支，方便研究不同阶段的模型表现。
性能出色：尽管设计目标并非以提升下游性能为核心，但模型表现与同规模的其他模型（如OPT和GPT - Neo套件中的模型）相当或更优。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

高级用法

文档未提及高级用法示例，故跳过此部分。

📚 详细文档

模型详情

属性	详情
开发者	EleutherAI
模型类型	基于Transformer的语言模型
语言	英语
更多信息	Pythia的GitHub仓库提供训练过程、配置文件和使用细节。查看论文获取更多评估和实现细节。
库	[GPT - NeoX](https://github.com/EleutherAI/gpt - neox)
许可证	Apache 2.0
联系信息	若有关于此模型的问题，请加入 EleutherAI Discord，并在 `#release - discussion` 中提问。在提问前请阅读现有的 Pythia 文档。如需一般通信，请发送邮件至 contact@eleuther.ai。

Pythia模型	非嵌入参数	层数	模型维度	头数	批量大小	学习率	等效模型
70M	18,915,328	6	512	8	2M	1.0 x 10^-3	—
160M	85,056,000	12	768	12	2M	6.0 x 10^-4	GPT - Neo 125M, OPT - 125M
410M	302,311,424	24	1024	16	2M	3.0 x 10^-4	OPT - 350M
1.0B	805,736,448	16	2048	8	2M	3.0 x 10^-4	—
1.4B	1,208,602,624	24	2048	16	2M	2.0 x 10^-4	GPT - Neo 1.3B, OPT - 1.3B
2.8B	2,517,652,480	32	2560	32	2M	1.6 x 10^-4	GPT - Neo 2.7B, OPT - 2.7B
6.9B	6,444,163,072	32	4096	32	2M	1.2 x 10^-4	OPT - 6.7B
12B	11,327,027,200	36	5120	40	2M	1.2 x 10^-4	—

使用和限制

预期用途

Pythia的主要预期用途是研究大语言模型的行为、功能和局限性。该套件旨在为进行科学实验提供一个可控的环境。每个模型还提供154个检查点：初始 step0、10个对数间隔的检查点 step{1,2,4...512} 以及从 step1000 到 step143000 的143个均匀间隔的检查点。这些检查点托管在Hugging Face上作为分支。请注意，分支 143000 与每个模型 main 分支上的模型检查点完全对应。

你也可以进一步微调并调整Pythia - 410M以进行部署，只要你的使用符合Apache 2.0许可证。Pythia模型可与Hugging Face的 Transformers库配合使用。如果你决定使用预训练的Pythia - 410M作为微调模型的基础，请自行进行风险和偏差评估。

非预期用途

Pythia套件不用于部署。它本身不是一个产品，不能用于面向人类的交互。例如，该模型可能会生成有害或冒犯性的文本。请评估与你特定用例相关的风险。

Pythia模型仅支持英语，不适合用于翻译或生成其他语言的文本。

Pythia - 410M未针对语言模型常见的下游场景进行微调，如撰写散文或商业聊天机器人。这意味着Pythia - 410M不会像ChatGPT这样的产品那样对给定提示做出响应。这是因为与该模型不同，ChatGPT使用了如基于人类反馈的强化学习（RLHF）等方法进行微调，以更好地“遵循”人类指令。

局限性和偏差

大语言模型的核心功能是接受一串文本并预测下一个标记。模型使用的标记不一定能产生最“准确”的文本。切勿依赖Pythia - 410M生成事实准确的输出。

该模型在 Pile 数据集上进行训练，该数据集已知包含亵渎性和淫秽或其他冒犯性的文本。有关性别、宗教和种族方面的记录偏差的讨论，请参阅 Pile论文的第6节。Pythia - 410M可能会产生社会不可接受或不良的文本，即使提示本身不包含任何明确的冒犯性内容。

如果你打算使用通过例如托管推理API生成的文本，我们建议在将此语言模型的输出呈现给其他人之前，由人工对其进行审核。请告知你的受众该文本是由Pythia - 410M生成的。

训练

训练数据

Pile 是一个825GiB的英语通用数据集，由EleutherAI专门为训练大语言模型而创建。它包含来自22个不同来源的文本，大致分为五类：学术写作（如arXiv）、互联网（如CommonCrawl）、散文（如Project Gutenberg）、对话（如YouTube字幕）和其他（如GitHub、安然邮件）。有关所有数据源的细分、方法和伦理影响的讨论，请参阅 Pile论文。有关Pile及其组成数据集的更详细文档，请参阅数据表。Pile可以从官方网站或 [社区镜像](https://the - eye.eu/public/AI/pile/) 下载。

在用于训练Pythia - 410M之前，Pile数据集未进行去重处理。

训练过程

所有模型都在完全相同的数据上以完全相同的顺序进行训练。每个模型在训练期间处理了299,892,736,000个标记，并且每个模型每2,097,152,000个标记保存143个检查点，这些检查点在训练过程中均匀分布，从 step1000 到 step143000（与 main 相同）。此外，我们还提供频繁的早期检查点：step0 和 step{1,2,4...512}。

这相当于非去重模型在Pile数据集上训练略少于1个周期，而去重后的Pile数据集上训练约1.5个周期。

所有 Pythia 模型以2M（2,097,152个标记）的批量大小训练了143000步。有关训练过程的更多详细信息，包括 [如何重现](https://github.com/EleutherAI/pythia/blob/main/README.md#reproducing - training)，请参阅 GitHub。Pythia使用与 [GPT - NeoX - 20B](https://huggingface.co/EleutherAI/gpt - neox - 20b) 相同的分词器。

评估

所有16个 Pythia 模型都使用 [LM Evaluation Harness](https://github.com/EleutherAI/lm - evaluation - harness) 进行评估。你可以在 GitHub仓库的 results/json/* 中按模型和步骤访问评估结果。

展开以下部分，查看所有Pythia和Pythia - deduped模型与OPT和BLOOM相比的评估结果图。

LAMBADA – OpenAI

Physical Interaction: Question Answering (PIQA)

WinoGrande

AI2 Reasoning Challenge—Easy Set

SciQ

变更日志

本节比较了之前发布的 Pythia v0 与当前模型之间的差异。有关这些更改及其背后动机的进一步讨论，请参阅Pythia论文的附录B。我们发现重新训练Pythia对基准性能没有影响。

所有模型现在都以2M标记的统一批量大小进行训练。以前，参数为160M、410M和1.4B的模型以4M标记的批量大小进行训练。
除了每1000个训练步骤外，我们还在初始化时（step 0）和步骤 {1,2,4,8,16,32,64,128,256,512} 添加了检查点。
新的重新训练套件中使用了Flash Attention。
我们纠正了原始套件中存在的一个小不一致问题：所有参数为2.8B或更小的模型的学习率（LR）调度衰减到起始LR率的10%作为最小LR，但6.9B和12B模型都使用了衰减到最小LR为0的LR调度。在重新训练运行中，我们纠正了这个不一致问题：现在所有模型的LR都衰减到其最大LR的0.1倍作为最小值。

命名约定和参数数量

Pythia 模型在2023年1月进行了重命名。旧的命名约定可能仍意外存在于某些文档中。当前的命名约定（70M、160M等）基于总参数数量。

当前Pythia后缀	旧后缀	总参数	非嵌入参数
70M	19M	70,426,624	18,915,328
160M	125M	162,322,944	85,056,000
410M	350M	405,334,016	302,311,424
1B	800M	1,011,781,632	805,736,448
1.4B	1.3B	1,414,647,808	1,208,602,624
2.8B	2.7B	2,775,208,960	2,517,652,480
6.9B	6.7B	6,857,302,016	6,444,163,072
12B	13B	11,846,072,320	11,327,027,200