语言:
- 英文
标签:
- 文本生成
- pytorch
- 因果语言模型
许可证: mit
数据集:
- EleutherAI/pile
GPT-Neo 2.7B
模型描述
GPT-Neo 2.7B是基于EleutherAI复现的GPT-3架构设计的Transformer模型。GPT-Neo代表模型类别,而2.7B表示该特定预训练模型的参数量。
训练数据
GPT-Neo 2.7B在Pile数据集上训练完成,这是EleutherAI为训练此模型专门构建的大规模精选数据集。
训练过程
该模型经过400,000步训练,处理了4200亿个token。采用掩码自回归语言模型架构,使用交叉熵损失函数进行训练。
使用场景与限制
通过这种方式,模型学习到英语语言的内部表征,可用于提取下游任务所需的特征。该模型最擅长的是其预训练目标——根据提示生成文本。
使用方法
您可以直接使用文本生成管道调用该模型。以下示例每次运行都会生成不同的序列:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI已承诺为其每个主要客户开发新的软件包,并且'}]
局限性与偏差
GPT-Neo作为自回归语言模型训练,其核心功能是接收文本字符串并预测下一个token。虽然语言模型被广泛用于其他任务,但这项工作仍存在许多未知因素。
GPT-Neo在Pile数据集上训练,该数据集已知包含亵渎、猥亵及其他冒犯性语言。根据使用场景,GPT-Neo可能生成社会不可接受的文本。有关Pile数据集中偏差的详细分析,请参阅Pile论文第5和第6节。
与所有语言模型一样,很难提前预测GPT-Neo对特定提示的反应,可能会无预警地生成冒犯性内容。我们建议在发布前由人工审核或过滤输出结果,既审查不良内容又提高结果质量。
评估结果
所有评估均使用我们的评估工具完成。GPT-2和GPT-3的部分结果与原始论文报告值存在不一致,我们正在调查原因,非常欢迎对我们的评估工具提供反馈和进一步测试。如果您想贡献评估结果,请通过Discord联系我们。
语言推理能力
模型及规模 |
Pile BPB |
Pile PPL |
维基文本PPL |
Lambada PPL |
Lambada准确率 |
Winogrande |
Hellaswag |
GPT-Neo 1.3B |
0.7527 |
6.159 |
13.10 |
7.498 |
57.23% |
55.01% |
38.66% |
GPT-2 1.5B |
1.0468 |
----- |
17.48 |
10.634 |
51.21% |
59.40% |
40.03% |
GPT-Neo 2.7B |
0.7165 |
5.646 |
11.39 |
5.626 |
62.22% |
56.50% |
42.73% |
GPT-3 Ada |
0.9631 |
----- |
----- |
9.954 |
51.60% |
52.90% |
35.93% |
物理与科学推理
模型及规模 |
MathQA |
PubMedQA |
Piqa |
GPT-Neo 1.3B |
24.05% |
54.40% |
71.11% |
GPT-2 1.5B |
23.64% |
58.33% |
70.78% |
GPT-Neo 2.7B |
24.72% |
57.54% |
72.14% |
GPT-3 Ada |
24.29% |
52.80% |
68.88% |
下游应用
待补充
文献引用
引用本模型请使用:
@software{gpt-neo,
作者 = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
标题 = {{GPT-Neo: 基于Mesh-Tensorflow的大规模自回归语言建模}},
月份 = 3月,
年份 = 2021,
备注 = {{使用本软件时,请引用这些元数据}},
出版商 = {Zenodo},
版本 = {1.0},
DOI = {10.5281/zenodo.5297715},
网址 = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
标题={Pile数据集:面向语言建模的800GB多样化文本集},
作者={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
期刊={arXiv预印本 arXiv:2101.00027},
年份={2020}
}