aragpt2-mega开源语言模型 - 免费部署助力阿拉伯语内容生成任务

首页

Aragpt2 Mega

由 aubmindlab 开发

AraGPT2是一个针对阿拉伯语生成任务预训练的大型语言模型系列，包含基础版、中型、大型和巨型四种规模。

大型语言模型

Transformers

阿拉伯语开源协议:其他 #阿拉伯语生成 #大语言模型 #多尺寸可选

下载量 998

发布时间 : 3/2/2022

模型简介

AraGPT2是基于GPT2架构的阿拉伯语生成模型，使用大规模阿拉伯语数据集训练，支持文本生成等任务。

模型特点

阿拉伯语优化

专门针对阿拉伯语文本进行优化训练，使用AraBERTv2相同的大规模数据集

多规模选择

提供从基础版(1.35亿参数)到巨型(14.6亿参数)四种规模选择

TPU优化训练

支持TPU训练，巨型模型使用TPUv3-128训练78万步

兼容Transformers

可通过HuggingFace Transformers库加载使用

模型能力

阿拉伯语文本生成

文本自动补全

语言模型微调

使用案例

内容生成

阿拉伯语文章生成

根据提示生成连贯的阿拉伯语文章

可生成符合阿拉伯语语法和表达习惯的长文本

教育应用

阿拉伯语学习辅助

生成阿拉伯语学习材料和练习题

🚀 阿拉伯语GPT2

阿拉伯语GPT2是基于GPT2架构的阿拉伯语语言模型，可用于多种自然语言处理任务。本仓库代码可用于训练所有GPT2变体，支持在GPU和TPU上进行训练和微调。

🚀 快速开始

你可以在我们的论文 AraGPT2 中找到更多信息。

✨ 主要特性

支持在GPU和TPU上训练和微调GPT2。
提供不同规模的模型，包括base、medium、large和mega。
所有模型都可在 HuggingFace 模型页面获取，支持PyTorch、TF2和TF1格式。

📦 安装指南

本README未提及安装相关步骤，故跳过此章节。

💻 使用示例

基础用法

使用 transformers 库测试模型：

from transformers import AutoModelForCausalLM, pipeline
from arabert.preprocess import ArabertPreprocessor

MODEL_NAME='aubmindlab/aragpt2-mega'
arabert_prep = ArabertPreprocessor(model_name=MODEL_NAME)

text=""
text_clean = arabert_prep.preprocess(text)

model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, trust_remote_code=True)
tokenizer = GPT2TokenizerFast.from_pretrained(MODEL_NAME)
generation_pipeline = pipeline(
    "text-generation", model=MODEL_NAME, trust_remote_code=True
)

# 可尝试不同的解码设置
generation_pipeline(text,
    pad_token_id=pipeline.tokenizer.eos_token_id,
    num_beams=10,
    max_length=200,
    top_p=0.9,
    repetition_penalty = 3.0,
    no_repeat_ngram_size = 3)[0]['generated_text']

高级用法

使用我们的代码结合TF 1.15.4进行微调：创建训练TFRecords：

python create_pretraining_data.py
 --input_file=<RAW TEXT FILE with documents/article separated by an empty line>
 --output_file=<OUTPUT TFRecord>
 --tokenizer_dir=<Directory with the GPT2 Tokenizer files>

微调：

python3 run_pretraining.py \
  --input_file="gs://<GS_BUCKET>/pretraining_data/*" \
  --output_dir="gs://<GS_BUCKET>/pretraining_model/" \
  --config_file="config/small_hparams.json" \
  --batch_size=128 \
  --eval_batch_size=8 \
  --num_train_steps= \
  --num_warmup_steps= \
  --learning_rate= \
  --save_checkpoints_steps= \
  --max_seq_length=1024 \
  --max_eval_steps= \
  --optimizer="lamb" \
  --iterations_per_loop=5000 \
  --keep_checkpoint_max=10 \
  --use_tpu=True \
  --tpu_name=<TPU NAME> \
  --do_train=True \
  --do_eval=False

📚 详细文档

模型规格

模型	优化器	上下文大小	嵌入大小	头数	层数	模型大小/参数数量
AraGPT2-base	`lamb`	1024	768	12	12	527MB/135M
AraGPT2-medium	`lamb`	1024	1024	16	24	1.38G/370M
AraGPT2-large	`adafactor`	1024	1280	20	36	2.98GB/792M
AraGPT2-mega	`adafactor`	1024	1536	25	48	5.5GB/1.46B

所有模型都可在 HuggingFace 模型页面以 aubmindlab 名称获取。检查点支持PyTorch、TF2和TF1格式。

计算资源

如需了解数据集来源，请参阅数据集部分

模型	硬件	示例数量（序列长度 = 1024）	批量大小	步数	时间（天）
AraGPT2-base	TPUv3-128	9.7M	1792	125K	1.5
AraGPT2-medium	TPUv3-8	9.7M	1152	85K	1.5
AraGPT2-large	TPUv3-128	9.7M	256	220k	3
AraGPT2-mega	TPUv3-128	9.7M	256	780K	9

数据集

新的AraBERT模型的预训练数据也用于 GPT2和ELECTRA。该数据集包含77GB、200,095,961行、8,655,948,860个单词或82,232,988,358个字符（应用Farasa分割之前）。对于新数据集，我们将经过彻底过滤的未打乱的OSCAR语料库添加到之前用于AraBERTv1的数据集，但不包括之前爬取的网站：

未打乱且经过过滤的OSCAR语料库。
2020/09/01的阿拉伯语维基百科转储
15亿单词的阿拉伯语语料库
OSIAN语料库
Assafir新闻文章。非常感谢Assafir提供数据。

🔧 技术细节

GPT2-base和medium使用 gpt2 文件夹中的代码，可从 minimaxir/gpt-2-simple 仓库训练模型。这些模型使用 lamb 优化器，遵循与 gpt2 相同的架构，并且与 transformers 库完全兼容。 GPT2-large和GPT2-mega使用 imcaspar/gpt2-ml 库进行训练，遵循 grover 架构。你可以使用 grover/modeling_gpt2.py 中的pytorch类直接替换 transformers 库中的类（应支持 transformers 的 v4.x 版本）。这两个模型都使用 adafactor 优化器，因为 adam 和 lamb 优化器使用的内存过多，导致模型在TPU核心上甚至无法容纳1个批次。

📄 许可证

本模型采用自定义许可证，详情请见许可证链接。

其他信息

免责声明

阿拉伯语GPT2生成的文本是由在大量文本上训练的神经网络模型自动生成的，并不代表作者或其机构的官方态度和偏好。阿拉伯语GPT2生成的文本仅应用于研究和科学目的。如果它侵犯了你的权益或违反了社会道德，请不要传播它。

引用

如果你使用了此模型，请按以下格式引用：

@inproceedings{antoun-etal-2021-aragpt2,
    title = "{A}ra{GPT}2: Pre-Trained Transformer for {A}rabic Language Generation",
    author = "Antoun, Wissam  and
      Baly, Fady  and
      Hajj, Hazem",
    booktitle = "Proceedings of the Sixth Arabic Natural Language Processing Workshop",
    month = apr,
    year = "2021",
    address = "Kyiv, Ukraine (Virtual)",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.wanlp-1.21",
    pages = "196--207",
}

致谢

感谢TensorFlow Research Cloud (TFRC) 免费提供Cloud TPU访问权限，没有这个项目我们无法完成这项工作。感谢 AUB MIND Lab 成员的持续支持。也感谢 Yakshof 和Assafir提供数据和存储访问权限。另外感谢Habib Rahal (https://www.behance.net/rahalhabib) 为AraBERT设计形象。