🚀 阿拉伯语BERT模型
这是一个为阿拉伯语预训练的BERT基础语言模型,可用于处理阿拉伯语相关的自然语言处理任务。
如果您在工作中使用了此模型,请引用以下论文:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
🚀 快速开始
加载预训练模型
您可以通过安装 torch
或 tensorflow
以及Huggingface库 transformers
来使用此模型。您可以像这样初始化并直接使用它:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-base-arabic")
✨ 主要特性
- 基于BERT架构,专为阿拉伯语设计,可用于多种自然语言处理任务。
- 预训练语料丰富,涵盖了多种阿拉伯语资源,包括OSCAR和维基百科。
📦 安装指南
安装 torch
或 tensorflow
以及Huggingface库 transformers
即可使用该模型。
📚 详细文档
预训练语料库
arabic-bert-base
模型在约82亿个单词上进行了预训练:
以及其他阿拉伯语资源,总计约95GB的文本。
关于训练数据的说明:
- 我们最终版本的语料库包含一些非阿拉伯语单词,我们没有从句子中删除这些单词,因为这会影响一些任务,如命名实体识别(NER)。
- 虽然在预处理步骤中对非阿拉伯语字符进行了小写处理,但由于阿拉伯语字符没有大小写之分,因此该模型没有大小写版本。
- 语料库和词汇集不限于现代标准阿拉伯语,它们也包含一些方言阿拉伯语。
预训练细节
- 该模型使用Google BERT的GitHub 仓库 在由 TFRC 免费提供的单个TPU v3 - 8上进行训练。
- 我们的预训练过程遵循BERT的训练设置,但有一些更改:训练300万个训练步骤,批量大小为128,而不是100万个训练步骤,批量大小为256。
模型性能
有关模型性能的更多详细信息或任何其他问题,请参考 Arabic - BERT。
🔧 技术细节
训练环境
- 训练使用Google BERT的GitHub仓库代码。
- 硬件:单个TPU v3 - 8(由TFRC免费提供)。
训练参数
📄 许可证
文档未提及许可证信息。
💡 使用建议
在使用该模型处理阿拉伯语任务时,由于语料库中包含非阿拉伯语单词和方言阿拉伯语,对于一些特定任务可能需要进行额外的处理和调整。
致谢
感谢Google为训练过程提供免费的TPU,以及Huggingface在其服务器上托管此模型 😊