R

Roberta Base Indonesian 522M

由 cahya 开发
基于RoBERTa-base架构的印尼语预训练模型,使用印尼语维基百科数据训练,不区分大小写。
下载量 454
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个基于RoBERTa-base架构的模型,使用印尼语维基百科数据通过掩码语言建模(MLM)目标进行预训练。该模型不区分大小写,适用于印尼语文本处理任务。

模型特点

无大小写区分
模型不区分大小写,例如'indonesia'和'Indonesia'被视为相同。
基于RoBERTa架构
采用RoBERTa-base架构,优化了原始BERT的训练方法。
印尼语专用
专门针对印尼语进行预训练,适用于印尼语文本处理任务。

模型能力

掩码语言建模
文本特征提取
印尼语文本处理

使用案例

文本处理
掩码预测
预测文本中被掩码的单词
可准确预测印尼语文本中的缺失单词
文本特征提取
获取文本的向量表示
可用于下游NLP任务的特征输入