语言: 阿拉伯语
数据集:
- 维基百科
- Osian
- 15亿阿拉伯语语料库
- 未打乱的OSCAR阿拉伯语语料
示例输入:
AraBERT v1 与 v2:面向阿拉伯语理解的BERT预训练模型
AraBERT是基于谷歌BERT架构的阿拉伯语预训练语言模型,采用BERT-Base相同配置。更多细节详见AraBERT论文及AraBERT技术交流会。
模型分为v0.1和v1两个版本,区别在于v1版本使用Farasa分词器对前缀后缀进行了预分割处理。
我们在多项下游任务中评估AraBERT,并与mBERT及其他前沿模型(据我们所知)进行对比,包括:
AraBERTv2
新特性!
AraBERT现推出4个新变体替代旧版v1:
详情参见AraBERT目录下的README及AraBERT论文
所有模型均可在HuggingFace
的aubmindlab页面获取,支持PyTorch/TF2/TF1格式。
更优预处理与新词表
我们修复了v1版词表存在的标点数字粘连问题,现通过插入空格实现分隔。新词表使用tokenizers
库的BertWordpieceTokenizer
生成,支持transformers
库的快速分词器。
注意:旧版BERT代码仍兼容新版,仅需更改模型名称并参考预处理函数说明。
更大规模数据与算力
训练数据量提升约3.5倍,训练时长增加:
模型 |
硬件 |
序列长度(128/512)样本数 |
128(批大小/步数) |
512(批大小/步数) |
总步数 |
总耗时(天) |
AraBERTv0.2-base |
TPUv3-8 |
4.2亿/2.07亿 |
2560/100万 |
384/200万 |
300万 |
- |
AraBERTv0.2-large |
TPUv3-128 |
4.2亿/2.07亿 |
13440/25万 |
2056/30万 |
55万 |
7 |
AraBERTv2-base |
TPUv3-8 |
4.2亿/2.07亿 |
2560/100万 |
384/200万 |
300万 |
- |
AraBERTv2-large |
TPUv3-128 |
5.2亿/2.45亿 |
13440/25万 |
2056/30万 |
55万 |
7 |
AraBERT-base(v1/v0.1) |
TPUv2-8 |
- |
512/90万 |
128/30万 |
120万 |
4 |
数据集
新版预训练数据同时用于AraGPT2和AraELECTRA,包含:
预处理
建议在任何训练/测试前应用预处理函数:
from arabert.preprocess import ArabertPreprocessor
model_name="bert-base-arabertv2"
arabert_prep = ArabertPreprocessor(model_name=model_name)
text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
>>> "و+ لن نبالغ إذا قل +نا إن هاتف أو كمبيوتر ال+ مكتب في زمن +نا هذا ضروري"
支持的模型
bert-base-arabertv01
bert-base-arabert
bert-base-arabertv02
bert-base-arabertv2
bert-large-arabertv02
bert-large-arabertv2
araelectra-base
aragpt2-base
aragpt2-medium
aragpt2-large
aragpt2-mega
TensorFlow 1.x模型
TF1.x模型可通过以下方式获取:
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/aubmindlab/MODEL_NAME
tar -C ./MODEL_NAME -zxvf /content/MODEL_NAME/tf1_model.tar.gz
- wget下载:从huggingface.co/models/aubmindlab/MODEL_NAME获取tf1_model.tar.gz的oid sha256后执行:
wget https://cdn-lfs.huggingface.co/aubmindlab/MODEL_NAME/SHA256_VALUE
引用
请使用以下格式引用:
@inproceedings{antoun2020arabert,
title={AraBERT: Transformer-based Model for Arabic Language Understanding},
author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
pages={9}
}
致谢
感谢TensorFlow Research Cloud (TFRC)提供的免费TPU资源,AUB MIND Lab团队的支持,Yakshof和Assafir的数据存储支持,以及Habib Rahal (https://www.behance.net/rahalhabib)设计的AraBERT形象。
联系方式
Wissam Antoun: 领英 | 推特 | GitHub | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly: 领英 | 推特 | GitHub | fgb06@mail.aub.edu | baly.fady@gmail.com