bert-base-qarib60_1790k开源阿拉伯语BERT模型

首页

Bert Base Qarib60 1790k

由 ahmedabdelali 开发

QARiB是基于约4.2亿条推文和1.8亿条文本句子训练的阿拉伯语及方言BERT模型，支持多种下游NLP任务。

大型语言模型阿拉伯语#阿拉伯语方言处理 #社交媒体文本分析 #多任务NLP优化

下载量 16

发布时间 : 3/2/2022

模型简介

该模型专门针对阿拉伯语及其方言优化，适用于掩码语言建模和各类自然语言处理任务，在多项阿拉伯语NLP任务中表现优异。

模型特点

大规模阿拉伯语训练数据

基于4.2亿条推文和1.8亿条文本句子训练，覆盖标准阿拉伯语和方言

多领域数据整合

整合Twitter数据、阿拉伯语十亿词库、Abulkhair语料库和OPUS多语料库

方言支持

特别优化了对阿拉伯语方言的处理能力

高性能表现

在五项NLP下游任务中表现优于多语言BERT/AraBERT/ArabicBERT

模型能力

阿拉伯语文本理解

方言识别

情感分析

命名实体识别

冒犯性语言检测

使用案例

社交媒体分析

阿拉伯语推文情感分析

分析阿拉伯语推文的情感倾向

优于其他阿拉伯语BERT模型

方言识别

识别文本中的阿拉伯语方言

高准确率

文本处理

命名实体识别

识别阿拉伯语文本中的人名、地名等实体

冒犯性语言检测

检测阿拉伯语文本中的冒犯性内容

🚀 QARiB：QCRI阿拉伯语及方言BERT模型

QARiB模型是一个基于阿拉伯语及方言的BERT模型，它在约4.2亿条推文和约1.8亿个文本句子的数据集上进行训练。该模型可用于掩码语言建模和下一句预测等自然语言处理任务，在多个下游任务中表现优于多语言BERT、AraBERT和ArabicBERT等模型。

🚀 快速开始

QCRI阿拉伯语及方言BERT（QARiB）模型在约4.2亿条推文和约1.8亿个文本句子的集合上进行了训练。对于推文数据，是使用Twitter API并通过lang:ar语言过滤器收集的；对于文本数据，则是来自阿拉伯语千兆词库、Abulkhair阿拉伯语语料库和OPUS的组合。

✨ 主要特性

bert - base - qarib60_1790k

数据大小：60GB
迭代次数：1790k
损失值：1.8764963

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

你可以直接使用此模型进行掩码语言建模：

>>>from transformers import pipeline
>>>fill_mask = pipeline("fill-mask", model="./models/data60gb_86k")

>>> fill_mask("شو عندكم يا [MASK]")
[{'sequence': '[CLS] شو عندكم يا عرب [SEP]', 'score': 0.0990147516131401, 'token': 2355, 'token_str': 'عرب'}, 
{'sequence': '[CLS] شو عندكم يا جماعة [SEP]', 'score': 0.051633741706609726, 'token': 2308, 'token_str': 'جماعة'}, 
{'sequence': '[CLS] شو عندكم يا شباب [SEP]', 'score': 0.046871256083250046, 'token': 939, 'token_str': 'شباب'}, 
{'sequence': '[CLS] شو عندكم يا رفاق [SEP]', 'score': 0.03598872944712639, 'token': 7664, 'token_str': 'رفاق'}, 
{'sequence': '[CLS] شو عندكم يا ناس [SEP]', 'score': 0.031996358186006546, 'token': 271, 'token_str': 'ناس'}]

>>> fill_mask("قللي وشفيييك يرحم [MASK]")
[{'sequence': '[CLS] قللي وشفيييك يرحم والديك [SEP]', 'score': 0.4152909517288208, 'token': 9650, 'token_str': 'والديك'}, 
{'sequence': '[CLS] قللي وشفيييك يرحملي [SEP]', 'score': 0.07663793861865997, 'token': 294, 'token_str': '##لي'}, 
{'sequence': '[CLS] قللي وشفيييك يرحم حالك [SEP]', 'score': 0.0453166700899601, 'token': 2663, 'token_str': 'حالك'}, 
{'sequence': '[CLS] قللي وشفيييك يرحم امك [SEP]', 'score': 0.04390475153923035, 'token': 1942, 'token_str': 'امك'}, 
{'sequence': '[CLS] قللي وشفيييك يرحمونك [SEP]', 'score': 0.027349254116415977, 'token': 3283, 'token_str': '##ونك'}]

>>> fill_mask("وقام المدير [MASK]")
[
{'sequence': '[CLS] وقام المدير بالعمل [SEP]', 'score': 0.0678194984793663, 'token': 4230, 'token_str': 'بالعمل'}, 
{'sequence': '[CLS] وقام المدير بذلك [SEP]', 'score': 0.05191086605191231, 'token': 984, 'token_str': 'بذلك'}, 
{'sequence': '[CLS] وقام المدير بالاتصال [SEP]', 'score': 0.045264165848493576, 'token': 26096, 'token_str': 'بالاتصال'}, 
{'sequence': '[CLS] وقام المدير بعمله [SEP]', 'score': 0.03732728958129883, 'token': 40486, 'token_str': 'بعمله'}, 
{'sequence': '[CLS] وقام المدير بالامر [SEP]', 'score': 0.0246378555893898, 'token': 29124, 'token_str': 'بالامر'}
]
>>> fill_mask("وقامت المديرة [MASK]")

[{'sequence': '[CLS] وقامت المديرة بذلك [SEP]', 'score': 0.23992691934108734, 'token': 984, 'token_str': 'بذلك'}, 
{'sequence': '[CLS] وقامت المديرة بالامر [SEP]', 'score': 0.108805812895298, 'token': 29124, 'token_str': 'بالامر'}, 
{'sequence': '[CLS] وقامت المديرة بالعمل [SEP]', 'score': 0.06639821827411652, 'token': 4230, 'token_str': 'بالعمل'}, 
{'sequence': '[CLS] وقامت المديرة بالاتصال [SEP]', 'score': 0.05613093823194504, 'token': 26096, 'token_str': 'بالاتصال'}, 
{'sequence': '[CLS] وقامت المديرة المديرة [SEP]', 'score': 0.021778125315904617, 'token': 41635, 'token_str': 'المديرة'}]

你可以使用原始模型进行掩码语言建模或下一句预测，但该模型主要用于在下游任务中进行微调。你可以在模型中心查找针对你感兴趣任务的微调版本。更多详情请见使用QARiB

📚 详细文档

训练过程

该模型使用谷歌原始的TensorFlow代码在谷歌云TPU v2上进行训练。我们使用谷歌云存储桶来持久存储训练数据和模型。更多详细信息请见训练QARiB

评估结果

我们在五个自然语言处理下游任务上对QARiB模型进行了评估：

情感分析
情感检测
命名实体识别（NER）
冒犯性语言检测
方言识别

QARiB模型在这些任务上的表现优于多语言BERT、AraBERT和ArabicBERT。

模型权重和词汇表下载

你可以从Huggingface网站下载模型权重和词汇表：https://huggingface.co/qarib/qarib/bert - base - qarib60_1790k

联系方式

Ahmed Abdelali、Sabit Hassan、Hamdy Mubarak、Kareem Darwish和Younes Samih

参考文献

@article{abdelali2021pretraining,
    title={Pre-Training BERT on Arabic Tweets: Practical Considerations},
    author={Ahmed Abdelali and Sabit Hassan and Hamdy Mubarak and Kareem Darwish and Younes Samih},
    year={2021},
    eprint={2102.10684},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

信息表格

属性	详情
模型类型	QCRI阿拉伯语及方言BERT模型
训练数据	约4.2亿条推文和约1.8亿个文本句子，推文使用Twitter API并通过`lang:ar`语言过滤器收集，文本数据来自阿拉伯语千兆词库、Abulkhair阿拉伯语语料库和OPUS
训练代码	谷歌原始的TensorFlow代码
训练设备	谷歌云TPU v2
评估任务	情感分析、情感检测、命名实体识别、冒犯性语言检测、方言识别
模型下载地址	https://huggingface.co/qarib/qarib/bert-base-qarib60_1790k
联系方式	Ahmed Abdelali、Sabit Hassan、Hamdy Mubarak、Kareem Darwish和Younes Samih
参考文献	@article{abdelali2021pretraining, title={Pre - Training BERT on Arabic Tweets: Practical Considerations}, author={Ahmed Abdelali and Sabit Hassan and Hamdy Mubarak and Kareem Darwish and Younes Samih}, year={2021}, eprint={2102.10684}, archivePrefix={arXiv}, primaryClass={cs.CL}}