🚀 AraBERTv0.2-Twitter
AraBERTv0.2-Twitter是用于阿拉伯语方言和推文的两个新模型。它们通过在约6000万条阿拉伯语推文(从1亿条推文中筛选而来)上继续使用掩码语言模型(MLM)任务进行预训练而得到。
这两个新模型在其词汇表中添加了表情符号,以及一些最初未包含的常用词汇。预训练仅进行了1个轮次,且最大句子长度为64。
AraBERT 是一个基于 Google的BERT架构 的阿拉伯语预训练语言模型。AraBERT使用与BERT-Base相同的配置。更多详细信息可在 AraBERT论文 和 AraBERT Meetup 中找到。
📦 训练数据集
- wikipedia
- Osian
- 1.5B-Arabic-Corpus
- oscar-arabic-unshuffled
- Assafir(私有)
- Twitter(私有)
📊 模型示例
{
"text": " عاصمة لبنان هي [MASK] ."
}
✨ 主要特性
- 专为阿拉伯语方言和推文设计,在相关任务上表现更优。
- 词汇表中添加了表情符号和常用词汇,增强了对多样化文本的处理能力。
📦 其他模型
💻 使用示例
基础用法
from arabert.preprocess import ArabertPreprocessor
from transformers import AutoTokenizer, AutoModelForMaskedLM
model_name="aubmindlab/bert-base-arabertv02-twitter"
arabert_prep = ArabertPreprocessor(model_name=model_name)
text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")
model = AutoModelForMaskedLM.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")
注意事项
⚠️ 重要提示
该模型是在序列长度为64的情况下进行训练的,使用超过64的最大长度可能会导致性能下降。
💡 使用建议
建议在对任何数据集进行训练/测试之前应用预处理函数。当使用“twitter”模型时,预处理器会保留表情符号并将其分隔开。
📖 引用格式
如果你使用了此模型,请按以下格式引用我们:
Google Scholar的Bibtex格式有误(缺少名称),请使用以下内容:
@inproceedings{antoun2020arabert,
title={AraBERT: Transformer-based Model for Arabic Language Understanding},
author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
pages={9}
}
🙏 致谢
感谢TensorFlow研究云(TFRC)提供免费的Cloud TPU访问权限,没有这个项目我们无法完成这项工作。感谢 AUB MIND实验室 成员的持续支持。同时感谢 Yakshof 和Assafir提供数据和存储访问权限。还要感谢Habib Rahal(https://www.behance.net/rahalhabib)为AraBERT设计了形象。
📞 联系方式
Wissam Antoun:领英 | 推特 | Github | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly:领英 | 推特 | Github | fgb06@mail.aub.edu | baly.fady@gmail.com