B

Bert Base Arabertv02 Twitter

由 aubmindlab 开发
针对阿拉伯语方言及推文优化的BERT模型,在6000万条阿拉伯语推文上进行了MLM任务预训练,新增表情符号和常用词汇支持。
下载量 2,148
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

基于谷歌BERT架构的阿拉伯语预训练模型,特别优化了阿拉伯语方言和社交媒体文本处理能力。

模型特点

推文优化
专门在6000万条多方言阿拉伯语推文上训练,优化社交媒体文本处理
扩展词汇表
新增表情符号和原先缺失的常用词汇支持
短文本优化
预训练时单句最大长度设为64,特别适合短文本处理

模型能力

阿拉伯语文本理解
社交媒体文本分析
掩码词预测
方言处理

使用案例

社交媒体分析
阿拉伯语推文情感分析
分析阿拉伯语用户的推文情感倾向
方言内容理解
处理阿拉伯语各地方言的社交媒体内容
文本补全
阿拉伯语文本自动补全
预测被掩码的阿拉伯语词汇
如能准确预测'黎巴嫩的首都是[MASK]'中的'贝鲁特'