bert-base-indonesian-522M开源模型 - 支持印尼语文本处理，免费可用！

首页

Bert Base Indonesian 522M

由 cahya 开发

基于印尼语维基百科预训练的BERT基础模型，采用掩码语言建模（MLM）目标训练，不区分大小写。

大型语言模型其他开源协议:MIT #印尼语预训练 #不区分大小写 #掩码语言建模

下载量 2,799

发布时间 : 3/2/2022

模型简介

该模型是基于印尼语维基百科预训练的BERT基础模型，主要用于自然语言处理任务，如文本分类、文本生成等。

模型特点

不区分大小写

模型不区分大小写，例如'indonesia'和'Indonesia'会被视为相同。

基于印尼语维基百科

使用522MB的印尼语维基百科数据进行预训练，适合印尼语自然语言处理任务。

WordPiece分词

使用WordPiece进行分词，词汇量为32,000。

模型能力

掩码语言建模

文本分类

文本生成

特征提取

使用案例

自然语言处理

填充掩码

使用模型预测句子中被掩码的单词。

如示例所示，模型能准确预测'Ibu ku sedang bekerja [MASK] supermarket'中的掩码单词为'di'。

文本特征提取

使用模型提取文本的特征表示，用于下游任务。

🚀 印尼语BERT基础模型（不区分大小写）

这是一个基于BERT基础架构的预训练模型，使用印尼语维基百科数据，通过掩码语言建模（MLM）目标进行训练。该模型不区分大小写，例如“indonesia”和“Indonesia”会被视为相同。它是多个使用印尼语数据集预训练的语言模型之一。更多关于其在下游任务（如文本分类、文本生成等）的使用细节，可查看基于Transformer的印尼语语言模型。

🚀 快速开始

如何使用

你可以直接使用这个模型进行掩码语言建模任务：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

以下是在PyTorch中使用该模型获取给定文本特征的方法：

from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-522M'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方法如下：

from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-522M'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

✨ 主要特性

该模型是使用印尼语维基百科数据预训练的BERT基础模型，采用掩码语言建模目标。不区分大小写，适用于多种下游任务。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

高级用法

在PyTorch中获取文本特征：

from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-522M'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中获取文本特征：

from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-522M'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)