语言: 阿拉伯语
数据集:
- 维基百科
- OSIAN
- 15亿阿拉伯语语料库
示例输入:
- 文本: "黎巴嫩的首都是[MASK]。"
AraBERT v1 与 v2:面向阿拉伯语理解的BERT预训练模型
AraBERT是基于谷歌BERT架构的阿拉伯语预训练语言模型,采用BERT-Base相同配置。更多细节详见AraBERT论文及AraBERT技术交流会。
模型分为v0.1和v1两个版本,主要区别在于v1版本使用Farasa分词器对文本进行前缀/后缀分割预处理。
我们在多项下游任务中评估AraBERT模型,并与mBERT及其他前沿模型(基于现有公开资料)进行对比,包括:
AraBERTv2
新特性!
AraBERT现推出4个新变体替代旧版v1:
所有模型可通过HuggingFace的aubmindlab主页获取,支持PyTorch、TF2和TF1格式。
改进的预处理与新词表
我们修复了v1版词表的分词问题(原问题源于标点和数字未与单词分离)。新版通过tokenizers
库的BertWordpieceTokenizer
生成词表,并支持transformers
库的快速分词器。
注意:旧版BERT代码仍兼容新版,只需更改模型名称并参考新的预处理函数。
更大规模数据与算力
训练数据量扩大约3.5倍,训练时长增加。数据来源包括:
预处理
建议在训练/测试前使用我们的预处理函数:
from arabert.preprocess import ArabertPreprocessor
model_name="bert-base-arabertv01"
arabert_prep = ArabertPreprocessor(model_name=model_name)
text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
支持的模型
bert-base-arabertv01
bert-base-arabert
bert-base-arabertv02
bert-base-arabertv2
bert-large-arabertv02
bert-large-arabertv2
araelectra-base
aragpt2-base
aragpt2-medium
aragpt2-large
aragpt2-mega
TensorFlow 1.x模型
TF1.x模型可通过以下方式获取:
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/aubmindlab/MODEL_NAME
tar -C ./MODEL_NAME -zxvf /content/MODEL_NAME/tf1_model.tar.gz
wget https://cdn-lfs.huggingface.co/aubmindlab/aragpt2-base/SHA256_VALUE
引用格式
@inproceedings{antoun2020arabert,
title={AraBERT: Transformer-based Model for Arabic Language Understanding},
author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
pages={9}
}
致谢
感谢TensorFlow Research Cloud (TFRC)提供的免费TPU资源,以及AUB MIND Lab团队的支持。同时感谢Yakshof和Assafir提供数据存储支持,以及Habib Rahal (作品集)为AraBERT设计视觉形象。
联系方式
Wissam Antoun: 领英 | 推特 | GitHub | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly: 领英 | 推特 | GitHub | fgb06@mail.aub.edu | baly.fady@gmail.com