GPT-Neo 2.7B开源语言模型 - 免费部署实现多样文本处理任务

首页

Gpt Neo 2.7B

由 EleutherAI 开发

GPT-Neo 2.7B是EleutherAI基于GPT-3架构复现的27亿参数Transformer语言模型，在Pile数据集上训练完成

大型语言模型英语开源协议:MIT #大规模文本生成 #英语语言模型 #27亿参数

下载量 52.68k

发布时间 : 3/2/2022

模型简介

基于Transformer架构的自回归语言模型，擅长文本生成任务，可应用于多种自然语言处理场景

模型特点

大规模预训练

在4200亿token的Pile数据集上训练完成，具有强大的语言理解能力

开源模型

采用MIT许可证，允许商业和研究用途

多领域适应

在科学、物理推理和语言理解等多个领域表现良好

模型能力

文本生成

语言理解

上下文推理

使用案例

内容创作

自动写作

根据提示生成连贯的文本内容

可生成50字以上的连贯文本

教育研究

科学问答

回答科学和数学相关问题

在MathQA上达到24.72%准确率

🚀 GPT-Neo 2.7B

GPT-Neo 2.7B 是一个基于Transformer架构的模型，可用于文本生成任务，利用大规模数据集训练得到，在多种语言推理和物理科学推理任务中表现出色。

🚀 快速开始

你可以直接使用文本生成管道来使用这个模型。以下示例每次运行时都会生成不同的序列：

>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)

[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]

✨ 主要特性

架构设计：GPT-Neo 2.7B 是使用 EleutherAI 对 GPT - 3 架构的复现设计的Transformer模型。
训练数据：在大规模精心策划的数据集 The Pile 上进行训练。
训练目标：作为掩码自回归语言模型进行训练，使用交叉熵损失函数。
功能用途：学习英语语言的内部表示，可用于提取对下游任务有用的特征，尤其擅长根据提示生成文本。

📦 安装指南

文档未提及安装步骤，故跳过。

💻 使用示例

基础用法

>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)

[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]

📚 详细文档

模型描述

GPT-Neo 2.7B 是使用 EleutherAI 对 GPT - 3 架构的复现设计的Transformer模型。GPT - Neo 指的是模型类别，而 2.7B 表示这个特定预训练模型的参数数量。

训练数据

GPT-Neo 2.7B 在 The Pile 上进行训练，这是 EleutherAI 为训练该模型而创建的大规模精心策划的数据集。

训练过程

该模型在 400,000 个步骤中对 4200 亿个标记进行了训练。它作为掩码自回归语言模型进行训练，使用交叉熵损失函数。

预期用途和局限性

通过这种方式，模型学习英语语言的内部表示，然后可用于提取对下游任务有用的特征。不过，该模型最擅长的是其预训练的任务，即根据提示生成文本。

评估结果

所有评估均使用评估工具进行。GPT - 2 和 GPT - 3 的一些结果与各自论文中报告的值不一致。我们目前正在研究原因，并非常感谢对我们评估工具的反馈和进一步测试。如果你想贡献你所做的评估，请在我们的Discord上联系我们。

语言推理

属性	详情
模型类型	GPT-Neo 2.7B
训练数据	The Pile

模型及规模	Pile BPB	Pile PPL	Wikitext PPL	Lambada PPL	Lambada 准确率	Winogrande	Hellaswag
GPT-Neo 1.3B	0.7527	6.159	13.10	7.498	57.23%	55.01%	38.66%
GPT-2 1.5B	1.0468	-----	17.48	10.634	51.21%	59.40%	40.03%
GPT-Neo 2.7B	0.7165	5.646	11.39	5.626	62.22%	56.50%	42.73%
GPT-3 Ada	0.9631	-----	-----	9.954	51.60%	52.90%	35.93%

物理和科学推理

模型及规模	MathQA	PubMedQA	Piqa
GPT-Neo 1.3B	24.05%	54.40%	71.11%
GPT-2 1.5B	23.64%	58.33%	70.78%
GPT-Neo 2.7B	24.72%	57.54%	72.14%
GPT-3 Ada	24.29%	52.80%	68.88%

局限性和偏差

GPT - Neo 作为自回归语言模型进行训练。这意味着其核心功能是获取一串文本并预测下一个标记。虽然语言模型广泛用于此任务之外的其他任务，但这项工作仍有很多未知因素。

GPT - Neo 在 The Pile 上进行训练，该数据集已知包含亵渎、淫秽和其他冒犯性语言。根据你的用例，GPT - Neo 可能会产生社会不可接受的文本。有关 The Pile 中偏差的更详细分析，请参阅 The Pile 论文的第 5 节和第 6 节。

与所有语言模型一样，很难提前预测 GPT - Neo 对特定提示的响应，并且可能会在没有警告的情况下出现冒犯性内容。我们建议在发布输出之前由人工进行筛选或过滤，以审查不良内容并提高结果质量。

BibTeX 条目和引用信息

要引用此模型，请使用：

@software{gpt-neo,
  author       = {Black, Sid and
                  Leo, Gao and
                  Wang, Phil and
                  Leahy, Connor and
                  Biderman, Stella},
  title        = {{GPT-Neo: Large Scale Autoregressive Language 
                   Modeling with Mesh-Tensorflow}},
  month        = mar,
  year         = 2021,
  note         = {{If you use this software, please cite it using 
                   these metadata.}},
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.5297715},
  url          = {https://doi.org/10.5281/zenodo.5297715}
}

@article{gao2020pile,
  title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
  author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
  journal={arXiv preprint arXiv:2101.00027},
  year={2020}
}