B

Bert Base Arabertv2

由 aubmindlab 开发
AraBERT是基于BERT架构的阿拉伯语预训练语言模型,针对阿拉伯语理解任务优化,包含多个版本变体。
下载量 24.20k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

AraBERT是专门为阿拉伯语设计的预训练语言模型,基于谷歌BERT架构,在多项阿拉伯语NLP任务中表现优异。

模型特点

阿拉伯语优化分词
使用Farasa分词器对阿拉伯语前缀后缀进行预分割处理,提高语言理解准确性
大规模训练数据
使用77GB阿拉伯语数据(2亿句子/86亿词)训练,数据来源包括维基百科、OSCAR等权威语料
多版本支持
提供基础版和大版两种规模,以及是否预分割的不同变体,满足不同应用需求
下游任务表现优异
在情感分析、NER、问答等多项阿拉伯语NLP任务中超越mBERT等基线模型

模型能力

阿拉伯语文本理解
情感分析
命名实体识别
问答系统
文本分类

使用案例

情感分析
阿拉伯社交媒体情感分析
分析阿拉伯语社交媒体文本的情感倾向
在HARD、ASTD等数据集上表现优异
信息提取
阿拉伯语命名实体识别
识别阿拉伯文本中的人名、地名等实体
在ANERcorp数据集上取得良好效果
问答系统
阿拉伯语阅读理解
回答基于阿拉伯语文章的提问
在Arabic-SQuAD和ARCD数据集上表现良好