B

Bert Base Indonesian 1.5G

由 cahya 开发
这是一个基于BERT的印尼语预训练模型,使用维基百科和报纸数据进行训练,适用于多种自然语言处理任务。
下载量 40.08k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于BERT架构的印尼语预训练模型,通过掩码语言建模目标进行训练,支持印尼语文本处理任务。

模型特点

无大小写区分
模型不区分大小写,适用于处理不同大小写形式的印尼语文本。
大规模预训练数据
使用522MB的印尼语维基百科和1GB的2018年印尼报纸数据进行预训练。
WordPiece分词
使用32,000词汇量的WordPiece分词器处理文本。

模型能力

文本特征提取
掩码语言建模
印尼语文本处理

使用案例

自然语言处理
文本填充
使用掩码语言建模预测句子中缺失的词语。
示例中显示模型能准确预测'ibu ku sedang bekerja di supermarket'中的'di'
文本特征提取
获取印尼语文本的向量表示,用于下游任务。