GLM-2B开源通用语言模型 - 免费支持多种自然语言理解与生成任务

首页

Glm 2b

由 THUDM 开发

GLM-2B是基于自回归空白填充目标预训练的通用语言模型，支持多种自然语言理解与生成任务。

大型语言模型

Transformers

英语#自回归空白填充 #多任务微调 #长文本生成

下载量 60

发布时间 : 3/1/2023

模型简介

GLM-2B是一个通用语言模型，采用自回归空白填充目标进行预训练，可针对多种自然语言理解与生成任务进行微调。

模型特点

自回归空白填充

采用创新的自回归空白填充目标进行预训练，增强模型对文本的理解和生成能力

多任务适应

可针对多种自然语言理解与生成任务进行微调，具有广泛的应用适应性

多层次掩码策略

针对不同任务使用三种掩码标记：短文本填空[MASK]、句子级填空[sMASK]和生成任务[gMASK]

模型能力

文本生成

文本理解

序列到序列任务处理

语言建模

使用案例

自然语言处理

文本填空

使用[MASK]标记进行短文本填空任务

句子生成

使用[gMASK]标记进行从左至右的文本生成

长文本理解

使用[sMASK]标记进行句子级填空和理解

🚀 GLM - 通用语言模型

GLM是一种通用语言模型，它采用自回归填空目标进行预训练，可在各种自然语言理解和生成任务上进行微调。本模型能有效解决自然语言处理中的多种任务，为相关研究和应用提供强大支持。

🚀 快速开始

GLM可在多种自然语言理解和生成任务上进行微调。若需详细了解GLM，请参考我们的论文： GLM: General Language Model Pretraining with Autoregressive Blank Infilling (ACL 2022)

Zhengxiao Du*, Yujie Qian*, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang (*: 同等贡献)

更多示例请查看我们的 Github 仓库。

✨ 主要特性

GLM采用自回归填空目标进行预训练，适用于自然语言理解、序列到序列以及语言建模等多种任务。

📚 详细文档

模型描述

glm - 2b 在 Pile 数据集上进行预训练。它有36个Transformer层，每层的隐藏大小为4096，有64个注意力头。该模型使用为自然语言理解、序列到序列和语言建模设计的自回归填空目标进行预训练。更多细节请查看我们的仓库。

使用方法

请参考我们Github仓库中的 [说明](https://github.com/THUDM/GLM#hugging - face - hub)。

我们针对不同任务使用三种不同的掩码标记：[MASK] 用于短填空，[sMASK] 用于句子填空，[gMASK] 用于从左到右的生成。你可以从 [这里](https://github.com/THUDM/GLM#left - to - right - generation--blank - filling - interactive) 找到不同掩码的示例。预测总是以特殊标记 <|startofpiece|> 开始，以 <|endofpiece|> 标记结束。

📄 引用

如果您发现此代码对您的研究有用，请引用我们的论文：

@article{DBLP:conf/acl/DuQLDQY022,
  author    = {Zhengxiao Du and
               Yujie Qian and
               Xiao Liu and
               Ming Ding and
               Jiezhong Qiu and
               Zhilin Yang and
               Jie Tang},
  title     = {{GLM:} General Language Model Pretraining with Autoregressive Blank Infilling},
  booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational
               Linguistics (Volume 1: Long Papers), {ACL} 2022, Dublin, Ireland,
               May 22-27, 2022},
  pages     = {320--335},
  publisher = {Association for Computational Linguistics},
  year      = {2022},
}