bert-medium-arabic开源阿拉伯语语言模型 - 基于海量文本训练助力内容理解表达

首页

Bert Medium Arabic

由 asafaya 开发

预训练的阿拉伯语BERT中型语言模型，基于约82亿词的阿拉伯语文本资源训练

大型语言模型阿拉伯语#阿拉伯语NLP #社交媒体内容分析 #多方言支持

下载量 66

发布时间 : 3/2/2022

模型简介

该模型是一个预训练的阿拉伯语BERT中型语言模型，主要用于自然语言处理任务，如文本分类、命名实体识别等。

模型特点

多源训练数据

基于OSCAR阿拉伯语版和维基百科等多源阿拉伯语文本资源训练，总计约95GB。

方言支持

不仅包含现代标准阿拉伯语，也包含部分方言阿拉伯语。

优化训练

训练参数调整：总步数300万（batch size=128），而非原版BERT的100万步（batch size=256）。

模型能力

文本分类

命名实体识别

文本生成

语言理解

使用案例

社交媒体分析

冒犯性言论识别

用于识别社交媒体上的冒犯性言论。

在SemEval-2020任务12中表现良好。

自然语言处理

文本分类

用于阿拉伯语文本的分类任务。

命名实体识别

用于识别阿拉伯语文本中的命名实体。

🚀 阿拉伯语BERT中型模型

这是一个预训练的BERT中型阿拉伯语语言模型。它能够为阿拉伯语相关的自然语言处理任务提供强大的支持，帮助用户更高效地处理和分析阿拉伯语文本。

🚀 快速开始

你可以通过安装 torch 或 tensorflow 以及Huggingface库 transformers 来使用该模型。以下是初始化并使用该模型的示例代码：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")

✨ 主要特性

基于BERT架构，专为阿拉伯语设计，能有效处理阿拉伯语自然语言处理任务。
预训练语料丰富，涵盖多种阿拉伯语资源，包括来自Common Crawl的过滤数据和维基百科数据。

📦 安装指南

若要使用此模型，需要安装 torch 或 tensorflow 以及Huggingface库 transformers。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")

📚 详细文档

预训练语料库

arabic-bert-medium 模型在约82亿个单词上进行了预训练，使用的语料包括：

阿拉伯语版本的 OSCAR - 从 Common Crawl 过滤而来。
最新的阿拉伯语维基百科转储数据。

以及其他阿拉伯语资源，总计约95GB的文本。

关于训练数据的说明：

最终版本的语料库中包含一些非阿拉伯语单词，由于去除这些单词会影响命名实体识别（NER）等任务，因此未从句子中移除。
虽然在预处理步骤中对非阿拉伯语字符进行了小写处理，但由于阿拉伯语字符没有大小写之分，所以该模型没有区分大小写的版本。
语料库和词汇集不限于现代标准阿拉伯语，还包含一些方言阿拉伯语。

预训练细节

该模型使用Google BERT的GitHub 仓库在由 TFRC 免费提供的单个TPU v3 - 8上进行训练。
预训练过程遵循BERT的训练设置，但有一些更改：训练了300万个步骤，批量大小为128，而不是100万个步骤，批量大小为256。

模型性能

如需了解模型性能的更多详细信息或其他问题，请参考 Arabic - BERT。

🔧 技术细节

训练使用Google BERT的代码仓库，借助TPU v3 - 8进行加速。
调整了训练步骤和批量大小，以适应阿拉伯语语料的特点。

📄 许可证

如果你在工作中使用此模型，请引用以下论文：

@inproceedings{safaya-etal-2020-kuisail,
    title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
    author = "Safaya, Ali  and
      Abdullatif, Moutasem  and
      Yuret, Deniz",
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
    pages = "2054--2059",
}

致谢

感谢Google为训练过程提供免费的TPU，以及Huggingface在其服务器上托管此模型😊。

属性	详情
模型类型	预训练的BERT中型阿拉伯语语言模型
训练数据	阿拉伯语版本的OSCAR（从Common Crawl过滤而来）、阿拉伯语维基百科转储数据及其他阿拉伯语资源，总计约95GB文本