language: ar
tags:
- pytorch
- tf
- qarib
- qarib60_1790k
datasets:
- arabic_billion_words
- open_subtitles
- twitter
metrics:
- f1
widget:
- text: " شو عندكم يا [MASK] ."
QARiB:卡塔尔计算研究所阿拉伯语及方言BERT模型
关于QARiB
卡塔尔计算研究所阿拉伯语及方言BERT模型(QARiB)基于约4.2亿条推文和1.8亿条文本句子训练而成。
推文数据通过Twitter API采集并使用语言过滤器lang:ar
。文本数据则整合自阿拉伯语十亿词库、Abulkhair阿拉伯语语料库及OPUS多语语料库。
bert-base-qarib60_1790k版本
- 数据规模:60GB
- 训练迭代次数:179万次
- 损失值:1.8764963
训练过程
模型使用谷歌原始TensorFlow代码在Google Cloud TPU v2上完成训练,通过Google云存储桶实现训练数据与模型的持久化存储。详见训练文档
使用指南
基础模型可用于掩码语言建模或下一句预测,但更推荐在下游任务中进行微调。模型中心提供各类任务的微调版本,详见使用文档
调用示例
通过pipeline进行掩码预测:
>>>from transformers import pipeline
>>>fill_mask = pipeline("fill-mask", model="./models/data60gb_86k")
>>> fill_mask("شو عندكم يا [MASK]")
[{'sequence': '[CLS] شو عندكم يا عرب [SEP]', 'score': 0.0990147516131401, 'token': 2355, 'token_str': 'عرب'},
{'sequence': '[CLS] شو عندكم يا جماعة [SEP]', 'score': 0.051633741706609726, 'token': 2308, 'token_str': 'جماعة'},
{'sequence': '[CLS] شو عندكم يا شباب [SEP]', 'score': 0.046871256083250046, 'token': 939, 'token_str': 'شباب'},
{'sequence': '[CLS] شو عندكم يا رفاق [SEP]', 'score': 0.03598872944712639, 'token': 7664, 'token_str': 'رفاق'},
{'sequence': '[CLS] شو عندكم يا ناس [SEP]', 'score': 0.031996358186006546, 'token': 271, 'token_str': 'ناس'}]
训练配置
采用八核Google Cloud TPU v2进行训练,使用云存储桶保障数据持久化。
评估表现
在五项NLP下游任务中评估:
- 情感分析
- 情绪检测
- 命名实体识别(NER)
- 冒犯性语言检测
- 方言识别
QARiB模型表现均优于多语言BERT/AraBERT/ArabicBERT。
模型下载
Huggingface站点:权重与词表下载
联系人
Ahmed Abdelali, Sabit Hassan, Hamdy Mubarak, Kareem Darwish, Younes Samih
文献引用
@article{abdelali2021pretraining,
title={Pre-Training BERT on Arabic Tweets: Practical Considerations},
author={Ahmed Abdelali and Sabit Hassan and Hamdy Mubarak and Kareem Darwish and Younes Samih},
year={2021},
eprint={2102.10684},
archivePrefix={arXiv},
primaryClass={cs.CL}
}