bert-base-qarib开源模型 - 支持阿拉伯语及方言文本处理，海量数据训练

首页

Bert Base Qarib

由 ahmedabdelali 开发

QARiB是基于阿拉伯语及方言的大规模预训练BERT模型，训练数据包含4.2亿条推文和1.8亿条文本句子。

大型语言模型阿拉伯语#阿拉伯语方言处理 #社交媒体文本分析 #多任务微调适配

下载量 602

发布时间 : 3/2/2022

模型简介

专门针对阿拉伯语及方言优化的BERT模型，支持掩码语言建模和下游任务微调，在多个阿拉伯语NLP任务中表现优异。

模型特点

方言支持

专门针对阿拉伯语方言优化，在方言识别任务中达到65.21%准确率

大规模训练数据

基于140亿词元的阿拉伯语数据训练，包含推文和正式文本

多任务表现优异

在情感检测、冒犯性语言检测等任务上超越同类阿拉伯语BERT模型

模型能力

阿拉伯语文本理解

方言识别

情感分析

命名实体识别

冒犯性语言检测

掩码语言建模

使用案例

社交媒体分析

阿拉伯语推文情感分析

分析阿拉伯语推文的情感倾向

在情感分析任务上达到93.31%准确率

冒犯性内容检测

识别社交媒体中的冒犯性阿拉伯语内容

准确率达91.94%，优于同类模型

语言研究

阿拉伯方言识别

区分不同地区的阿拉伯语方言变体

65.21%的识别准确率

🚀 QARiB：QCRI阿拉伯语及方言BERT模型

QARiB（QCRI Arabic and Dialectal BERT）是一个在约4.2亿条推文和约1.8亿个文本句子上训练的模型。该模型在多种阿拉伯语相关任务中表现出色，为阿拉伯语的自然语言处理提供了强大的工具。

🚀 快速开始

你可以直接使用这个模型进行掩码语言建模任务。以下是使用示例：

>>>from transformers import pipeline
>>>fill_mask = pipeline("fill-mask", model="./models/data60gb_86k")

>>> fill_mask("شو عندكم يا [MASK]")
[{'sequence': '[CLS] شو عندكم يا عرب [SEP]', 'score': 0.0990147516131401, 'token': 2355, 'token_str': 'عرب'}, 
{'sequence': '[CLS] شو عندكم يا جماعة [SEP]', 'score': 0.051633741706609726, 'token': 2308, 'token_str': 'جماعة'}, 
{'sequence': '[CLS] شو عندكم يا شباب [SEP]', 'score': 0.046871256083250046, 'token': 939, 'token_str': 'شباب'}, 
{'sequence': '[CLS] شو عندكم يا رفاق [SEP]', 'score': 0.03598872944712639, 'token': 7664, 'token_str': 'رفاق'}, 
{'sequence': '[CLS] شو عندكم يا ناس [SEP]', 'score': 0.031996358186006546, 'token': 271, 'token_str': 'ناس'}
]
>>> fill_mask("وقام المدير [MASK]")
[
{'sequence': '[CLS] وقام المدير بالعمل [SEP]', 'score': 0.0678194984793663, 'token': 4230, 'token_str': 'بالعمل'}, 
{'sequence': '[CLS] وقام المدير بذلك [SEP]', 'score': 0.05191086605191231, 'token': 984, 'token_str': 'بذلك'}, 
{'sequence': '[CLS] وقام المدير بالاتصال [SEP]', 'score': 0.045264165848493576, 'token': 26096, 'token_str': 'بالاتصال'}, 
{'sequence': '[CLS] وقام المدير بعمله [SEP]', 'score': 0.03732728958129883, 'token': 40486, 'token_str': 'بعمله'}, 
{'sequence': '[CLS] وقام المدير بالامر [SEP]', 'score': 0.0246378555893898, 'token': 29124, 'token_str': 'بالامر'}
]
>>> fill_mask("وقامت المديرة [MASK]")

[{'sequence': '[CLS] وقامت المديرة بذلك [SEP]', 'score': 0.23992691934108734, 'token': 984, 'token_str': 'بذلك'}, 
{'sequence': '[CLS] وقامت المديرة بالامر [SEP]', 'score': 0.108805812895298, 'token': 29124, 'token_str': 'بالامر'}, 
{'sequence': '[CLS] وقامت المديرة بالعمل [SEP]', 'score': 0.06639821827411652, 'token': 4230, 'token_str': 'بالعمل'}, 
{'sequence': '[CLS] وقامت المديرة بالاتصال [SEP]', 'score': 0.05613093823194504, 'token': 26096, 'token_str': 'بالاتصال'}, 
{'sequence': '[CLS] وقامت المديرة المديرة [SEP]', 'score': 0.021778125315904617, 'token': 41635, 'token_str': 'المديرة'}]

>>> fill_mask("قللي وشفيييك يرحم [MASK]")
[{'sequence': '[CLS] قللي وشفيييك يرحم والديك [SEP]', 'score': 0.4152909517288208, 'token': 9650, 'token_str': 'والديك'}, 
{'sequence': '[CLS] قللي وشفيييك يرحملي [SEP]', 'score': 0.07663793861865997, 'token': 294, 'token_str': '##لي'}, 
{'sequence': '[CLS] قللي وشفيييك يرحم حالك [SEP]', 'score': 0.0453166700899601, 'token': 2663, 'token_str': 'حالك'}, 
{'sequence': '[CLS] قللي وشفيييك يرحم امك [SEP]', 'score': 0.04390475153923035, 'token': 1942, 'token_str': 'امك'}, 
{'sequence': '[CLS] قللي وشفيييك يرحمونك [SEP]', 'score': 0.027349254116415977, 'token': 3283, 'token_str': '##ونك'}]

✨ 主要特性

多数据源训练：使用推特API收集的推文数据（通过lang:ar语言过滤），以及来自Arabic GigaWord、Abulkhair Arabic Corpus和OPUS的文本数据进行训练。
优秀性能表现：在方言识别、情感检测、命名实体识别、冒犯性语言检测和情感分析等任务中，与其他模型相比，在部分任务上取得了更优的成绩。

📦 安装指南

文档未提及安装步骤，暂无法提供。

💻 使用示例

基础用法

>>>from transformers import pipeline
>>>fill_mask = pipeline("fill-mask", model="./models/data60gb_86k")

>>> fill_mask("شو عندكم يا [MASK]")
[{'sequence': '[CLS] شو عندكم يا عرب [SEP]', 'score': 0.0990147516131401, 'token': 2355, 'token_str': 'عرب'}, 
{'sequence': '[CLS] شو عندكم يا جماعة [SEP]', 'score': 0.051633741706609726, 'token': 2308, 'token_str': 'جماعة'}, 
{'sequence': '[CLS] شو عندكم يا شباب [SEP]', 'score': 0.046871256083250046, 'token': 939, 'token_str': 'شباب'}, 
{'sequence': '[CLS] شو عندكم يا رفاق [SEP]', 'score': 0.03598872944712639, 'token': 7664, 'token_str': 'رفاق'}, 
{'sequence': '[CLS] شو عندكم يا ناس [SEP]', 'score': 0.031996358186006546, 'token': 271, 'token_str': 'ناس'}
]

高级用法

文档未提及高级用法示例，暂无法提供。

📚 详细文档

训练详情：见 Training QARiB
使用详情：见 Using QARiB

🔧 技术细节

模型参数

属性	详情
数据规模	140亿个标记
词汇表	64k
迭代次数	1000万次
层数	12层

评估结果

实验	mBERT	AraBERT0.1	AraBERT1.0	ArabicBERT	QARiB
方言识别	6.06%	59.92%	59.85%	61.70%	65.21%
情感检测	27.90%	43.89%	42.37%	41.65%	44.35%
命名实体识别 (NER)	49.38%	64.97%	66.63%	64.04%	61.62%
冒犯性语言检测	83.14%	88.07%	88.97%	88.19%	91.94%
情感分析	86.61%	90.80%	93.58%	83.27%	93.31%

📄 许可证

文档未提及许可证信息，暂无法提供。

📦 模型权重和词汇表下载

可从Huggingface网站下载：https://huggingface.co/qarib/bert-base-qarib

📞 联系方式

Ahmed Abdelali, Sabit Hassan, Hamdy Mubarak, Kareem Darwish 和 Younes Samih

📚 参考文献

@article{abdelali2021pretraining,
    title={Pre-Training BERT on Arabic Tweets: Practical Considerations},
    author={Ahmed Abdelali and Sabit Hassan and Hamdy Mubarak and Kareem Darwish and Younes Samih},
    year={2021},
    eprint={2102.10684},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}