bert-base-arabertv2开源阿拉伯语模型 - 优化阿语理解任务助力应用

首页

Bert Base Arabertv2

由 aubmindlab 开发

AraBERT是基于BERT架构的阿拉伯语预训练语言模型，针对阿拉伯语理解任务优化，包含多个版本变体。

大型语言模型阿拉伯语#阿拉伯语BERT #多任务NLP #Farasa分词

下载量 24.20k

发布时间 : 3/2/2022

模型简介

AraBERT是专门为阿拉伯语设计的预训练语言模型，基于谷歌BERT架构，在多项阿拉伯语NLP任务中表现优异。

模型特点

阿拉伯语优化分词

使用Farasa分词器对阿拉伯语前缀后缀进行预分割处理，提高语言理解准确性

大规模训练数据

使用77GB阿拉伯语数据(2亿句子/86亿词)训练，数据来源包括维基百科、OSCAR等权威语料

多版本支持

提供基础版和大版两种规模，以及是否预分割的不同变体，满足不同应用需求

下游任务表现优异

在情感分析、NER、问答等多项阿拉伯语NLP任务中超越mBERT等基线模型

模型能力

阿拉伯语文本理解

情感分析

命名实体识别

问答系统

文本分类

使用案例

情感分析

阿拉伯社交媒体情感分析

分析阿拉伯语社交媒体文本的情感倾向

在HARD、ASTD等数据集上表现优异

信息提取

阿拉伯语命名实体识别

识别阿拉伯文本中的人名、地名等实体

在ANERcorp数据集上取得良好效果

问答系统

阿拉伯语阅读理解

回答基于阿拉伯语文章的提问

在Arabic-SQuAD和ARCD数据集上表现良好

🚀 AraBERT v1 & v2：用于阿拉伯语理解的BERT预训练模型

AraBERT 是一个基于谷歌的BERT架构的阿拉伯语预训练语言模型。AraBERT采用了与BERT - Base相同的配置。更多细节可参考 AraBERT论文和 AraBERT线上活动。

数据集信息

属性	详情
训练数据	wikipedia、Osian、1.5B - Arabic - Corpus、oscar - arabic - unshuffled

模型小部件示例

输入文本：" عاصم +ة لبنان هي [MASK] ."

🚀 快速开始

本项目提供了用于阿拉伯语理解的预训练模型AraBERT v1和v2。以下将详细介绍模型的版本、改进、数据集、预处理等内容。

✨ 主要特性

模型版本

有两个版本的模型，AraBERTv0.1和AraBERTv1，区别在于AraBERTv1使用了预分割文本，其中前缀和后缀使用 Farasa分割器进行分割。
AraBERT现在有4个新变体来取代旧的v1版本，具体信息如下： | 模型 | HuggingFace模型名称 | 大小 (MB/参数) | 预分割 | 数据集 (句子数/大小/单词数) | |------|------|------|------|------| | AraBERTv0.2 - base | [bert - base - arabertv02](https://huggingface.co/aubmindlab/bert - base - arabertv02) | 543MB / 136M | 否 | 200M / 77GB / 8.6B | | AraBERTv0.2 - large | [bert - large - arabertv02](https://huggingface.co/aubmindlab/bert - large - arabertv02) | 1.38G / 371M | 否 | 200M / 77GB / 8.6B | | AraBERTv2 - base | [bert - base - arabertv2](https://huggingface.co/aubmindlab/bert - base - arabertv2) | 543MB / 136M | 是 | 200M / 77GB / 8.6B | | AraBERTv2 - large | [bert - large - arabertv2](https://huggingface.co/aubmindlab/bert - large - arabertv2) | 1.38G / 371M | 是 | 200M / 77GB / 8.6B | | AraBERTv0.1 - base | [bert - base - arabertv01](https://huggingface.co/aubmindlab/bert - base - arabertv01) | 543MB / 136M | 否 | 77M / 23GB / 2.7B | | AraBERTv1 - base | [bert - base - arabert](https://huggingface.co/aubmindlab/bert - base - arabert) | 543MB / 136M | 是 | 77M / 23GB / 2.7B |

所有模型都可以在 HuggingFace 模型页面的 aubmindlab 名下找到。检查点以PyTorch、TF2和TF1格式提供。

更好的预处理和新词汇表

我们发现了AraBERTv1的词片词汇表存在一个问题，该问题源于学习词片词汇表时标点符号和数字仍然与单词相连。现在我们在数字和字符之间以及标点字符周围插入了空格。
新的词汇表使用 tokenizers 库中的 BertWordpieceTokenizer 学习得到，现在应该支持 transformers 库中的快速分词器实现。

更大的数据集和更多的计算资源

我们使用了约3.5倍的数据，并进行了更长时间的训练。数据集来源详见数据集部分。 | 模型 | 硬件 | 序列长度为(128 / 512)的示例数量 | 128 (批量大小/步数) | 512 (批量大小/步数) | 总步数 | 总时间 (天) | |------|------|------|------|------|------|------| | AraBERTv0.2 - base | TPUv3 - 8 | 420M / 207M | 2560 / 1M | 384 / 2M | 3M | - | | AraBERTv0.2 - large | TPUv3 - 128 | 420M / 207M | 13440 / 250K | 2056 / 300K | 550K | 7 | | AraBERTv2 - base | TPUv3 - 8 | 420M / 207M | 2560 / 1M | 384 / 2M | 3M | - | | AraBERTv2 - large | TPUv3 - 128 | 520M / 245M | 13440 / 250K | 2056 / 300K | 550K | 7 | | AraBERT - base (v1/v0.1) | TPUv2 - 8 | - | 512 / 900K | 128 / 300K | 1.2M | 4 |

📦 安装指南

安装 farasapy 以便为AraBERT v1和v2分割文本：

pip install farasapy

💻 使用示例

基础用法

from arabert.preprocess import ArabertPreprocessor

model_name="bert-base-arabertv2"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
# 输出: "و+ لن نبالغ إذا قل +نا إن هاتف أو كمبيوتر ال+ مكتب في زمن +نا هذا ضروري"

支持的模型

bert-base-arabertv01
bert-base-arabert
bert-base-arabertv02
bert-base-arabertv2
bert-large-arabertv02
bert-large-arabertv2
araelectra-base
aragpt2-base
aragpt2-medium
aragpt2-large
aragpt2-mega

📚 详细文档

数据集

预训练新的AraBERT模型所使用的数据也用于阿拉伯语的 AraGPT2和AraELECTRA。数据集由77GB、200,095,961行、8,655,948,860个单词或82,232,988,358个字符（应用Farasa分割之前）组成。新数据集在之前AraBERTv1使用的数据集基础上，添加了未打乱的OSCAR语料库（经过彻底过滤），但不包括之前爬取的网站：

经过过滤的未打乱的OSCAR语料库。
[2020/09/01的阿拉伯语维基百科转储](https://archive.org/details/arwiki - 20190201)
[15亿单词的阿拉伯语语料库](https://www.semanticscholar.org/paper/1.5 - billion - words - Arabic - Corpus - El - Khair/f3eeef4afb81223df96575adadf808fe7fe440b4)
[OSIAN语料库](https://www.aclweb.org/anthology/W19 - 4619)
Assafir新闻文章。非常感谢Assafir提供数据。

预处理

建议在任何数据集上进行训练/测试之前应用我们的预处理函数。

from arabert.preprocess import ArabertPreprocessor

model_name="bert-base-arabertv2"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)

TensorFlow 1.x模型

TF1.x模型可在HuggingFace模型仓库中获取。可以通过以下方式下载：

通过git - lfs：在一个仓库中克隆所有模型

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/aubmindlab/MODEL_NAME
tar -C ./MODEL_NAME -zxvf /content/MODEL_NAME/tf1_model.tar.gz

其中 MODEL_NAME 是 aubmindlab 名下的任何模型。

通过 wget：
- 访问huggingface.co/models/aubmindlab/MODEL_NAME上的tf1_model.tar.gz文件。
- 复制 oid sha256。
- 然后运行 wget https://cdn-lfs.huggingface.co/aubmindlab/aragpt2-base/INSERT_THE_SHA_HERE（例如，对于 aragpt2 - base：wget https://cdn-lfs.huggingface.co/aubmindlab/aragpt2-base/3766fc03d7c2593ff2fb991d275e96b81b0ecb2098b71ff315611d052ce65248）

引用说明

如果您使用了此模型，请按以下方式引用我们：

@inproceedings{antoun2020arabert,
  title={AraBERT: Transformer-based Model for Arabic Language Understanding},
  author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
  booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
  pages={9}
}

致谢

感谢TensorFlow研究云（TFRC）免费提供云TPU访问权限，没有这个项目我们无法完成这项工作；感谢 AUB MIND实验室成员的持续支持；感谢 Yakshof 和Assafir提供数据和存储访问权限；感谢Habib Rahal (https://www.behance.net/rahalhabib) 为AraBERT设计形象。