B

Bert Large Arabertv2

由 aubmindlab 开发
AraBERT是基于谷歌BERT架构的阿拉伯语预训练语言模型,专为阿拉伯语自然语言理解任务设计。
下载量 334
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

AraBERT是一个针对阿拉伯语优化的BERT模型,通过改进预处理和更大规模的数据训练,提升了在阿拉伯语NLP任务中的表现。

模型特点

改进的预处理
解决了标点符号和数字与单词粘连的问题,通过插入空格优化了分词效果。
更大规模的数据训练
使用了约3.5倍的数据量,包括维基百科、OSCAR语料库等,提升了模型性能。
多版本支持
提供base和large版本,以及针对Twitter数据的变体,满足不同需求。

模型能力

阿拉伯语文本理解
情感分析
命名实体识别
问答系统

使用案例

情感分析
社交媒体情感分析
分析阿拉伯语社交媒体内容的情感倾向。
在HARD、ASTD-Balanced等数据集上表现优异。
命名实体识别
新闻实体识别
从阿拉伯语新闻中识别命名实体。
基于ANERcorp数据集评估。
问答系统
阿拉伯语问答
回答基于阿拉伯语文本的问题。
在Arabic-SQuAD和ARCD数据集上评估。