B

Bert Base Indonesian 522M

由 cahya 开发
基于印尼语维基百科预训练的BERT基础模型,采用掩码语言建模(MLM)目标训练,不区分大小写。
下载量 2,799
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于印尼语维基百科预训练的BERT基础模型,主要用于自然语言处理任务,如文本分类、文本生成等。

模型特点

不区分大小写
模型不区分大小写,例如'indonesia'和'Indonesia'会被视为相同。
基于印尼语维基百科
使用522MB的印尼语维基百科数据进行预训练,适合印尼语自然语言处理任务。
WordPiece分词
使用WordPiece进行分词,词汇量为32,000。

模型能力

掩码语言建模
文本分类
文本生成
特征提取

使用案例

自然语言处理
填充掩码
使用模型预测句子中被掩码的单词。
如示例所示,模型能准确预测'Ibu ku sedang bekerja [MASK] supermarket'中的掩码单词为'di'。
文本特征提取
使用模型提取文本的特征表示,用于下游任务。