B

Bert Base Arabic Camelbert Mix

由 CAMeL-Lab 开发
CAMeLBERT是一系列基于阿拉伯语文本预训练的BERT模型集合,支持现代标准阿拉伯语、方言阿拉伯语和古典阿拉伯语。
下载量 3,158
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

CAMeLBERT-Mix是一个在MSA、DA和CA混合变体上预训练的阿拉伯语BERT模型,适用于多种NLP任务。

模型特点

多阿拉伯语变体支持
同时支持现代标准阿拉伯语、方言阿拉伯语和古典阿拉伯语三种变体。
大规模预训练
在167GB的混合阿拉伯语文本上进行预训练,覆盖广泛的语言使用场景。
任务适应性
经过验证适用于多种NLP任务,包括NER、词性标注、情感分析等。

模型能力

阿拉伯语文本理解
掩码语言建模
下一句预测
命名实体识别
词性标注
情感分析
方言识别
诗歌分类

使用案例

文本分析
阿拉伯语命名实体识别
识别阿拉伯语文本中的人名、地名等实体
在ANERcorp数据集上达到80.8%的F1分数
阿拉伯语情感分析
分析阿拉伯语文本的情感倾向
在ASTD数据集上达到76.3%的F1分数
语言研究
阿拉伯语方言识别
识别文本使用的阿拉伯语方言类型
在MADAR-6数据集上达到92.5%的F1分数
古典阿拉伯语诗歌分类
对古典阿拉伯语诗歌进行分类
在APCD数据集上达到79.8%的F1分数