语言: 阿拉伯语
数据集:
- 维基百科
- Osian
- 15亿阿拉伯语语料库
- 未打乱的OSCAR阿拉伯语语料
- Assafir(私有)
小部件示例:
!!! 该模型有更新版本可用 !!! AraBERTv2
AraBERT v1 与 v2:为阿拉伯语理解预训练的BERT模型
AraBERT 是基于谷歌BERT架构的阿拉伯语预训练语言模型,采用与BERT-Base相同的配置。更多细节详见AraBERT论文及AraBERT技术交流会。
模型分为AraBERTv0.1和AraBERTv1两个版本,主要区别在于AraBERTv1使用Farasa分词器对文本进行了前缀/后缀分割预处理。
我们在多项下游任务中评估AraBERT模型,并与mBERT及其他前沿模型(据我们所知)进行对比,包括:
AraBERTv2
新特性!
AraBERT现推出4个新变体替代旧版v1:
所有模型均可在HuggingFace
平台的aubmindlab页面获取,支持PyTorch、TF2和TF1格式。
更优预处理与新词表
我们修复了AraBERTv1词片词表的标点数字粘连问题,现通过插入空格实现分隔。新词表使用tokenizers
库的BertWordpieceTokenizer
生成,支持transformers
库的快速分词器实现。
注意:旧版BERT代码仍兼容新版,仅需更改模型名并参考预处理说明。
更大规模数据与算力
训练数据量扩大约3.5倍,训练时长增加。数据来源包括:
预处理
建议在训练/测试前应用我们的预处理函数:
from arabert.preprocess import ArabertPreprocessor
model_name="bert-base-arabert"
arabert_prep = ArabertPreprocessor(model_name=model_name)
text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
>>>"و+ لن نبالغ إذا قل +نا إن هاتف أو كمبيوتر ال+ مكتب في زمن +نا هذا ضروري"
支持的模型
bert-base-arabertv01
bert-base-arabert
bert-base-arabertv02
bert-base-arabertv2
bert-large-arabertv02
bert-large-arabertv2
araelectra-base
aragpt2-base
aragpt2-medium
aragpt2-large
aragpt2-mega
TensorFlow 1.x模型
TF1.x模型可通过以下方式获取:
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/aubmindlab/MODEL_NAME
tar -C ./MODEL_NAME -zxvf /content/MODEL_NAME/tf1_model.tar.gz
引用
请使用以下文献引用:
@inproceedings{antoun2020arabert,
title={AraBERT: Transformer-based Model for Arabic Language Understanding},
author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
pages={9}
}
致谢
感谢TensorFlow Research Cloud (TFRC)提供的免费Cloud TPU资源,AUB MIND实验室的持续支持,Yakshof和Assafir的数据支持,以及Habib Rahal (作品集)设计的AraBERT形象。
联系方式
Wissam Antoun: 领英 | 推特 | GitHub | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly: 领英 | 推特 | GitHub | fgb06@mail.aub.edu | baly.fady@gmail.com