B

Bert Base Arabertv01

由 aubmindlab 开发
基于BERT架构的阿拉伯语预训练语言模型,支持多种阿拉伯语NLP任务
下载量 293
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

AraBERT是基于谷歌BERT架构的阿拉伯语预训练语言模型,专为阿拉伯语自然语言理解任务设计。模型分为v0.1和v1两个版本,主要区别在于v1版本使用Farasa分词器对文本进行前缀/后缀分割预处理。

模型特点

阿拉伯语优化
专门针对阿拉伯语特性进行优化,包括字符集和分词处理
多版本支持
提供v0.1和v1两个版本,v1版使用Farasa分词器进行更精细的预处理
大规模预训练
基于7700万句子/23GB/27亿词的阿拉伯语语料库训练

模型能力

文本掩码预测
情感分析
命名实体识别
问答系统

使用案例

情感分析
阿拉伯社交媒体情感分析
分析阿拉伯语社交媒体帖子的情感倾向
在HARD、ASTD-Balanced等6个阿拉伯情感分析数据集上表现优异
信息提取
阿拉伯语命名实体识别
识别阿拉伯文本中的人名、地名等实体
在ANERcorp数据集上表现良好
问答系统
阿拉伯语问答
构建阿拉伯语问答系统
在Arabic-SQuAD和ARCD数据集上表现良好