A

ARBERT

由 UBC-NLP 开发
ARBERT是针对现代标准阿拉伯语(MSA)的大规模预训练掩码语言模型,基于BERT-base架构,训练数据涵盖61GB阿拉伯语文本。
下载量 1,082
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

ARBERT是一个深度双向Transformer模型,专门为现代标准阿拉伯语设计,用于处理阿拉伯语文本的掩码语言建模任务。

模型特点

大规模阿拉伯语预训练
使用61GB阿拉伯语文本(62亿词元)进行训练,专门针对现代标准阿拉伯语优化
BERT-base兼容架构
采用标准BERT-base架构(12层/12头/768维),便于迁移学习和微调
专业词汇表
包含10万词片的阿拉伯语专用词汇表

模型能力

阿拉伯语文本理解
掩码语言建模
文本分类
命名实体识别

使用案例

社交媒体分析
阿拉伯语推文情感分析
对阿拉伯语社交媒体内容进行情感倾向判断
在ARLUE基准测试中表现优异
教育科技
阿拉伯语语法检查
自动检测现代标准阿拉伯语文本的语法错误