AraBERTv0.2-Twitter开源语言模型 - 优化阿拉伯语方言推文处理，支持表情与新词

首页

Bert Large Arabertv02 Twitter

由 aubmindlab 开发

AraBERTv0.2-Twitter是针对阿拉伯语方言及推文优化的预训练语言模型，基于BERT架构开发，新增表情符号和常见词汇支持。

大型语言模型

Transformers

阿拉伯语#阿拉伯语推文优化 #多方言支持 #表情符号处理

下载量 312

发布时间 : 3/2/2022

模型简介

该模型通过在约6000万条阿拉伯语推文上继续预训练而得，专门优化了阿拉伯语方言和社交媒体文本的理解能力。

模型特点

方言优化

专门针对阿拉伯语方言和推文内容进行优化训练

表情符号支持

词汇表中新增了表情符号及常见社交媒体词汇

短文本优化

针对64个token的序列长度进行训练，适合社交媒体短文本

模型能力

阿拉伯语文本理解

社交媒体文本处理

掩码语言预测

使用案例

社交媒体分析

阿拉伯语推文情感分析

分析阿拉伯语推文中的情感倾向

方言文本理解

处理阿拉伯语不同地区的方言文本

语言模型应用

文本补全

预测被掩码的词语或短语

示例：'黎巴嫩的首都是[MASK]'可预测为'贝鲁特'

🚀 AraBERTv0.2-Twitter

AraBERTv0.2-Twitter是用于阿拉伯方言和推文的两个新模型，通过在约6000万条阿拉伯语推文（从1亿条推文中筛选而来）上继续使用掩码语言模型（MLM）任务进行预训练得到。这两个新模型在其词汇表中添加了表情符号，以及一些最初不存在的常用词汇。预训练仅进行了1个轮次，最大句子长度为64。

AraBERT 是一个基于 Google的BERT架构的阿拉伯语预训练语言模型，采用了与BERT-Base相同的配置。更多详细信息可参考 AraBERT论文和 AraBERT线上活动。

📦 数据集

wikipedia
Osian
1.5B-Arabic-Corpus
oscar-arabic-unshuffled
Assafir（私有）
Twitter（私有）

🖥️ 示例

{
  "text": " عاصمة لبنان هي [MASK] ."
}

✨ 主要特性

模型变体

模型	HuggingFace模型名称	大小 (MB/参数)	预分词	数据集 (句子数/大小/单词数)
AraBERTv0.2-base	bert-base-arabertv02	543MB / 1.36亿	否	2亿 / 77GB / 86亿
AraBERTv0.2-large	bert-large-arabertv02	1.38GB / 3.71亿	否	2亿 / 77GB / 86亿
AraBERTv2-base	bert-base-arabertv2	543MB / 1.36亿	是	2亿 / 77GB / 86亿
AraBERTv2-large	bert-large-arabertv2	1.38GB / 3.71亿	是	2亿 / 77GB / 86亿
AraBERTv0.1-base	bert-base-arabertv01	543MB / 1.36亿	否	7700万 / 23GB / 27亿
AraBERTv1-base	bert-base-arabert	543MB / 1.36亿	是	7700万 / 23GB / 27亿
AraBERTv0.2-Twitter-base	bert-base-arabertv02-twitter	543MB / 1.36亿	否	与v02相同 + 6000万条多方言推文
AraBERTv0.2-Twitter-large	bert-large-arabertv02-twitter	1.38GB / 3.71亿	否	与v02相同 + 6000万条多方言推文

💻 使用示例

基础用法

from arabert.preprocess import ArabertPreprocessor
from transformers import AutoTokenizer, AutoModelForMaskedLM

model_name="aubmindlab/bert-base-arabertv02-twitter"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
  
tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")
model = AutoModelForMaskedLM.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")

📚 详细文档

预处理

该模型在序列长度为64的情况下进行训练，使用超过64的最大长度可能会导致性能下降

建议在任何数据集上进行训练/测试之前应用预处理函数。当与“twitter”模型一起使用时，预处理器将保留表情符号并在其周围添加空格。

📄 引用

如果您使用了此模型，请按以下方式引用： Google Scholar的Bibtex引用有误（缺少名称），请使用以下内容：

@inproceedings{antoun2020arabert,
  title={AraBERT: Transformer-based Model for Arabic Language Understanding},
  author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
  booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
  pages={9}
}

🙏 致谢

感谢TensorFlow研究云（TFRC）免费提供云TPU访问权限，没有这个项目我们无法完成这项工作；感谢 AUB MIND实验室成员的持续支持；感谢 Yakshof 和Assafir提供数据和存储访问权限；感谢Habib Rahal（https://www.behance.net/rahalhabib）为AraBERT设计了标志。

📞 联系方式

Wissam Antoun：领英 | 推特 | GitHub | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly：领英 | 推特 | GitHub | fgb06@mail.aub.edu | baly.fady@gmail.com