语言:
- 英文
标签:
- 文本生成
- PyTorch
- 因果语言模型
许可证: MIT
数据集:
- EleutherAI/pile
GPT-Neo 1.3B 模型
模型描述
GPT-Neo 1.3B 是基于 EleutherAI 复现的 GPT-3 架构设计的 Transformer 模型。GPT-Neo 代表模型类别,1.3B 表示该预训练模型的参数量。
训练数据
GPT-Neo 1.3B 训练数据来源于 Pile 数据集,这是由 EleutherAI 为训练此类模型而构建的大规模精选数据集。
训练过程
该模型在 Pile 数据集上进行了 3800 亿 token、362,000 步的训练。采用掩码自回归语言模型架构,使用交叉熵损失函数进行训练。
使用场景与限制
通过训练,模型学习了英语语言的内部表征,可用于提取下游任务所需的特征。该模型最擅长其预训练目标——根据提示生成文本。
使用方法
可直接使用文本生成流水线调用本模型。以下示例每次运行会生成不同序列:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-1.3B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI 已承诺为其每个主要客户开发新的软件包,并已'}]
局限性及偏差
GPT-Neo 作为自回归语言模型训练,其核心功能是接收文本字符串并预测下一个 token。虽然语言模型广泛应用于其他任务,但存在许多未知因素。
训练数据 Pile 包含粗俗、淫秽等不当内容。根据使用场景,模型可能生成不符合社会规范的文本。详见 Pile 论文第 5、6 节关于数据偏差的分析。
与所有语言模型一样,无法提前预测 GPT-Neo 对特定提示的反应,可能突然生成冒犯性内容。建议人工审核输出内容,既过滤不良信息又提升结果质量。
评估结果
语言推理能力
模型及规模 |
Pile BPB |
Pile PPL |
Wikitext PPL |
Lambada PPL |
Lambada 准确率 |
Winogrande |
Hellaswag |
GPT-Neo 1.3B |
0.7527 |
6.159 |
13.10 |
7.498 |
57.23% |
55.01% |
38.66% |
GPT-2 1.5B |
1.0468 |
----- |
17.48 |
10.634 |
51.21% |
59.40% |
40.03% |
GPT-Neo 2.7B |
0.7165 |
5.646 |
11.39 |
5.626 |
62.22% |
56.50% |
42.73% |
GPT-3 Ada |
0.9631 |
----- |
----- |
9.954 |
51.60% |
52.90% |
35.93% |
物理科学推理
模型及规模 |
MathQA |
PubMedQA |
Piqa |
GPT-Neo 1.3B |
24.05% |
54.40% |
71.11% |
GPT-2 1.5B |
23.64% |
58.33% |
70.78% |
GPT-Neo 2.7B |
24.72% |
57.54% |
72.14% |
GPT-3 Ada |
24.29% |
52.80% |
68.88% |
下游应用
待补充
引用信息
引用本模型请使用:
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: 基于Mesh-Tensorflow的大规模自回归语言建模}},
month = 3月,
year = 2021,
note = {{使用本软件请引用此元数据}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={Pile数据集:面向语言建模的800GB多样化文本集},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv预印本 arXiv:2101.00027},
year={2020}
}
详细结果参见此处
评估指标 |
得分 |
平均分 |
29.44 |
ARC (25样本) |
31.23 |
HellaSwag (10样本) |
48.47 |
MMLU (5样本) |
24.82 |
TruthfulQA (0样本) |
39.63 |
Winogrande (5样本) |
56.91 |
GSM8K (5样本) |
0.45 |
DROP (3样本) |
4.6 |