B

Bert Base Arabic Camelbert Msa

由 CAMeL-Lab 开发
CAMeLBERT是针对阿拉伯语NLP任务的预训练模型集合,本模型为现代标准阿拉伯语(MSA)变体,基于126亿词元训练
下载量 1,212
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

基于现代标准阿拉伯语文本预训练的BERT模型,支持掩码语言建模及下游NLP任务微调

模型特点

多方言支持
提供古典阿拉伯语(CA)、方言阿拉伯语(DA)和现代标准阿拉伯语(MSA)三种变体的专用模型
数据规模可扩展
提供从完整数据到1/16数据的多种规模预训练模型,适应不同计算需求
专业预处理
采用阿拉伯语专用预处理流程,包括变音符号处理和字符规范化

模型能力

阿拉伯语文本理解
掩码语言建模
命名实体识别
词性标注
情感分析
方言识别

使用案例

文本分析
阿拉伯语新闻分类
对MSA新闻文本进行主题分类
在ArSAS数据集达93% F1分数
语言研究
古典诗歌分类
识别阿拉伯古典诗歌的时期和风格
APCD数据集上80.9%准确率(CA变体最佳)