语言: 阿拉伯语
数据集:
- 维基百科
- Osian
- 15亿阿拉伯语语料库
- 未打乱的OSCAR阿拉伯语语料
- Assafir私有数据集
小部件示例:
- 文本: '黎巴嫩的首都是[MASK]。'
流水线标签: 填充掩码
AraBERT v1 与 v2:面向阿拉伯语理解的BERT预训练模型
AraBERT是基于谷歌BERT架构的阿拉伯语预训练语言模型,采用与BERT-Base相同的配置。更多细节详见AraBERT论文及AraBERT技术交流会。
模型分为AraBERTv0.1和AraBERTv1两个版本,主要区别在于AraBERTv1使用了Farasa分词器对前缀和后缀进行预分割处理。
我们在多项下游任务中评估AraBERT模型,并与mBERT及其他前沿模型(据我们所知)进行对比,包括:
AraBERTv2
新版亮点!
AraBERT现推出4个新变体取代旧版v1:
详情参见AraBERT文件夹中的README及AraBERT论文
所有模型均发布于HuggingFace
平台的aubmindlab账户下,提供PyTorch、TF2和TF1格式的检查点。
更优预处理与新词表
我们修复了AraBERTv1词片词表中标点与数字粘连的问题,现在会在数字与字符间、标点周围插入空格。新词表使用tokenizers
库的BertWordpieceTokenizer
生成,支持transformers
库的快速分词器实现。
注意:所有旧版BERT代码仍适用于新版,只需更改模型名称并参考新的预处理函数
更大数据集与更强算力
我们使用了约3.5倍的数据量并延长训练时长,具体训练配置如下:
模型 |
硬件 |
序列长度(128/512)的样本数 |
128(批大小/步数) |
512(批大小/步数) |
总步数 |
总耗时(天) |
AraBERTv0.2-base |
TPUv3-8 |
4.2亿/2.07亿 |
2560/100万 |
384/200万 |
300万 |
- |
AraBERTv0.2-large |
TPUv3-128 |
4.2亿/2.07亿 |
13440/25万 |
2056/30万 |
55万 |
7 |
AraBERTv2-base |
TPUv3-8 |
4.2亿/2.07亿 |
2560/100万 |
384/200万 |
300万 |
- |
AraBERTv2-large |
TPUv3-128 |
5.2亿/2.45亿 |
13440/25万 |
2056/30万 |
55万 |
7 |
AraBERT-base(v1/v0.1) |
TPUv2-8 |
- |
512/90万 |
128/30万 |
120万 |
4 |
数据集
新版预训练数据同时用于阿拉伯语GPT2和ELECTRA模型,包含:
预处理
建议在任何数据集训练/测试前应用我们的预处理函数:
from arabert.preprocess import ArabertPreprocessor
model_name="aubmindlab/bert-large-arabertv02"
arabert_prep = ArabertPreprocessor(model_name=model_name)
text = "ولن نبالغ إذا قلنا: إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
>>> 输出: ولن نبالغ إذا قلنا : إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري
TensorFlow 1.x模型
TF1.x模型可通过以下方式获取:
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/aubmindlab/MODEL_NAME
tar -C ./MODEL_NAME -zxvf /content/MODEL_NAME/tf1_model.tar.gz
引用
若使用本模型,请引用:
@inproceedings{antoun2020arabert,
title={AraBERT: Transformer-based Model for Arabic Language Understanding},
author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
pages={9}
}
致谢
感谢TensorFlow Research Cloud (TFRC)提供的免费Cloud TPU资源,AUB MIND实验室成员的持续支持,Yakshof和Assafir的数据存储支持,以及Habib Rahal (作品集)设计的AraBERT形象。
联系方式
Wissam Antoun: 领英 | 推特 | GitHub | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly: 领英 | 推特 | GitHub | fgb06@mail.aub.edu | baly.fady@gmail.com