Bert Base Arabic

B

Bert Base Arabic

由 asafaya 开发

预训练的阿拉伯语BERT基础语言模型，支持现代标准阿拉伯语和部分方言

大型语言模型阿拉伯语#阿拉伯语预训练 #BERT架构 #社交媒体分析

下载量 14.40k

发布时间 : 3/2/2022

模型简介

该模型是基于BERT架构的阿拉伯语预训练语言模型，适用于各种阿拉伯语自然语言处理任务。

模型特点

大规模预训练数据

使用约82亿词的阿拉伯语语料进行训练，包含OSCAR和维基百科数据

方言支持

不仅支持现代标准阿拉伯语，也包含部分阿拉伯语方言内容

TPU优化训练

使用谷歌TPU v3-8进行300万步训练，优化了训练效率

模型能力

文本理解

文本生成

命名实体识别

文本分类

使用案例

社交媒体分析

冒犯性言论识别

用于识别社交媒体中的冒犯性阿拉伯语内容

在SemEval-2020 Task 12中取得良好表现

信息提取

阿拉伯语NER

用于阿拉伯语命名实体识别任务

🚀 阿拉伯语BERT模型

这是一个为阿拉伯语预训练的BERT基础语言模型，可用于处理阿拉伯语相关的自然语言处理任务。

如果您在工作中使用了此模型，请引用以下论文：

@inproceedings{safaya-etal-2020-kuisail,
    title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
    author = "Safaya, Ali  and
      Abdullatif, Moutasem  and
      Yuret, Deniz",
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
    pages = "2054--2059",
}

🚀 快速开始

加载预训练模型

您可以通过安装 torch 或 tensorflow 以及Huggingface库 transformers 来使用此模型。您可以像这样初始化并直接使用它：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-base-arabic")

✨ 主要特性

基于BERT架构，专为阿拉伯语设计，可用于多种自然语言处理任务。
预训练语料丰富，涵盖了多种阿拉伯语资源，包括OSCAR和维基百科。

📦 安装指南

安装 torch 或 tensorflow 以及Huggingface库 transformers 即可使用该模型。

📚 详细文档

预训练语料库

arabic-bert-base 模型在约82亿个单词上进行了预训练：

阿拉伯语版本的 OSCAR - 从 Common Crawl 中筛选而来
最新的阿拉伯语维基百科转储

以及其他阿拉伯语资源，总计约95GB的文本。

关于训练数据的说明：

我们最终版本的语料库包含一些非阿拉伯语单词，我们没有从句子中删除这些单词，因为这会影响一些任务，如命名实体识别（NER）。
虽然在预处理步骤中对非阿拉伯语字符进行了小写处理，但由于阿拉伯语字符没有大小写之分，因此该模型没有大小写版本。
语料库和词汇集不限于现代标准阿拉伯语，它们也包含一些方言阿拉伯语。

预训练细节

该模型使用Google BERT的GitHub 仓库在由 TFRC 免费提供的单个TPU v3 - 8上进行训练。
我们的预训练过程遵循BERT的训练设置，但有一些更改：训练300万个训练步骤，批量大小为128，而不是100万个训练步骤，批量大小为256。

模型性能

有关模型性能的更多详细信息或任何其他问题，请参考 Arabic - BERT。

🔧 技术细节

训练环境

训练使用Google BERT的GitHub仓库代码。
硬件：单个TPU v3 - 8（由TFRC免费提供）。

训练参数

训练步骤：300万步。
批量大小：128。

📄 许可证

文档未提及许可证信息。

💡 使用建议

在使用该模型处理阿拉伯语任务时，由于语料库中包含非阿拉伯语单词和方言阿拉伯语，对于一些特定任务可能需要进行额外的处理和调整。

致谢

感谢Google为训练过程提供免费的TPU，以及Huggingface在其服务器上托管此模型 😊

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24