bert - base - arabertv02 - twitter开源模型 - 优化阿拉伯语方言及推文处理，支持表情和常用词！

首页

Bert Base Arabertv02 Twitter

由 aubmindlab 开发

针对阿拉伯语方言及推文优化的BERT模型，在6000万条阿拉伯语推文上进行了MLM任务预训练，新增表情符号和常用词汇支持。

大型语言模型

Transformers

阿拉伯语#阿拉伯语推文优化 #多方言支持 #表情符号增强

下载量 2,148

发布时间 : 3/2/2022

模型简介

基于谷歌BERT架构的阿拉伯语预训练模型，特别优化了阿拉伯语方言和社交媒体文本处理能力。

模型特点

推文优化

专门在6000万条多方言阿拉伯语推文上训练，优化社交媒体文本处理

扩展词汇表

新增表情符号和原先缺失的常用词汇支持

短文本优化

预训练时单句最大长度设为64，特别适合短文本处理

模型能力

阿拉伯语文本理解

社交媒体文本分析

掩码词预测

方言处理

使用案例

社交媒体分析

阿拉伯语推文情感分析

分析阿拉伯语用户的推文情感倾向

方言内容理解

处理阿拉伯语各地方言的社交媒体内容

文本补全

阿拉伯语文本自动补全

预测被掩码的阿拉伯语词汇

如能准确预测'黎巴嫩的首都是[MASK]'中的'贝鲁特'

🚀 AraBERTv0.2-Twitter

AraBERTv0.2-Twitter是用于阿拉伯语方言和推文的两个新模型。它们通过在约6000万条阿拉伯语推文（从1亿条推文中筛选而来）上继续使用掩码语言模型（MLM）任务进行预训练而得到。

这两个新模型在其词汇表中添加了表情符号，以及一些最初未包含的常用词汇。预训练仅进行了1个轮次，且最大句子长度为64。

AraBERT 是一个基于 Google的BERT架构的阿拉伯语预训练语言模型。AraBERT使用与BERT-Base相同的配置。更多详细信息可在 AraBERT论文和 AraBERT Meetup 中找到。

📦 训练数据集

wikipedia
Osian
1.5B-Arabic-Corpus
oscar-arabic-unshuffled
Assafir（私有）
Twitter（私有）

📊 模型示例

{
  "text": " عاصمة لبنان هي [MASK] ."
}

✨ 主要特性

专为阿拉伯语方言和推文设计，在相关任务上表现更优。
词汇表中添加了表情符号和常用词汇，增强了对多样化文本的处理能力。

📦 其他模型

模型	HuggingFace模型名称	大小（MB/参数）	预分割	数据集（句子数/大小/单词数）
AraBERTv0.2-base	bert-base-arabertv02	543MB / 136M	否	2亿 / 77GB / 86亿
AraBERTv0.2-large	bert-large-arabertv02	1.38G / 371M	否	2亿 / 77GB / 86亿
AraBERTv2-base	bert-base-arabertv2	543MB / 136M	是	2亿 / 77GB / 86亿
AraBERTv2-large	bert-large-arabertv2	1.38G / 371M	是	2亿 / 77GB / 86亿
AraBERTv0.1-base	bert-base-arabertv01	543MB / 136M	否	7700万 / 23GB / 27亿
AraBERTv1-base	bert-base-arabert	543MB / 136M	是	7700万 / 23GB / 27亿
AraBERTv0.2-Twitter-base	bert-base-arabertv02-twitter	543MB / 136M	否	与v02相同 + 6000万条多方言推文
AraBERTv0.2-Twitter-large	bert-large-arabertv02-twitter	1.38G / 371M	否	与v02相同 + 6000万条多方言推文

💻 使用示例

基础用法

from arabert.preprocess import ArabertPreprocessor
from transformers import AutoTokenizer, AutoModelForMaskedLM

model_name="aubmindlab/bert-base-arabertv02-twitter"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
  
tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")
model = AutoModelForMaskedLM.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")

注意事项

⚠️ 重要提示

该模型是在序列长度为64的情况下进行训练的，使用超过64的最大长度可能会导致性能下降。

💡 使用建议

建议在对任何数据集进行训练/测试之前应用预处理函数。当使用“twitter”模型时，预处理器会保留表情符号并将其分隔开。

📖 引用格式

如果你使用了此模型，请按以下格式引用我们： Google Scholar的Bibtex格式有误（缺少名称），请使用以下内容：

@inproceedings{antoun2020arabert,
  title={AraBERT: Transformer-based Model for Arabic Language Understanding},
  author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
  booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
  pages={9}
}

🙏 致谢

感谢TensorFlow研究云（TFRC）提供免费的Cloud TPU访问权限，没有这个项目我们无法完成这项工作。感谢 AUB MIND实验室成员的持续支持。同时感谢 Yakshof 和Assafir提供数据和存储访问权限。还要感谢Habib Rahal（https://www.behance.net/rahalhabib）为AraBERT设计了形象。