bert-base-indonesian-1.5G开源印尼语模型 - 适用多类自然语言处理任务

首页

Bert Base Indonesian 1.5G

由 cahya 开发

这是一个基于BERT的印尼语预训练模型，使用维基百科和报纸数据进行训练，适用于多种自然语言处理任务。

大型语言模型其他开源协议:MIT #印尼语预训练 #无大小写区分 #掩码语言建模

下载量 40.08k

发布时间 : 3/2/2022

模型简介

该模型是基于BERT架构的印尼语预训练模型，通过掩码语言建模目标进行训练，支持印尼语文本处理任务。

模型特点

无大小写区分

模型不区分大小写，适用于处理不同大小写形式的印尼语文本。

大规模预训练数据

使用522MB的印尼语维基百科和1GB的2018年印尼报纸数据进行预训练。

WordPiece分词

使用32,000词汇量的WordPiece分词器处理文本。

模型能力

文本特征提取

掩码语言建模

印尼语文本处理

使用案例

自然语言处理

文本填充

使用掩码语言建模预测句子中缺失的词语。

示例中显示模型能准确预测'ibu ku sedang bekerja di supermarket'中的'di'

文本特征提取

获取印尼语文本的向量表示，用于下游任务。

🚀 印尼语BERT基础模型（不区分大小写）

本模型是一个基于BERT基础架构的预训练模型，利用印尼语维基百科和印尼报纸数据，通过掩码语言模型（MLM）目标进行预训练。该模型不区分大小写。它是使用印尼语数据集进行预训练的多个语言模型之一。关于其在下游任务（如文本分类、文本生成等）中的使用详情，可参考基于Transformer的印尼语语言模型。

🚀 快速开始

如何使用

你可以直接使用此模型进行掩码语言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-1.5G')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

以下是在PyTorch中使用该模型获取给定文本特征的方法：

from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方法如下：

from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-1.5G')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

高级用法

# 在不同深度学习框架中获取文本特征
# 在PyTorch中使用
from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

# 在TensorFlow中使用
from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 详细文档

文档未提及详细说明内容，故跳过此章节。

🔧 技术细节

文档未提及技术实现细节内容，故跳过此章节。

📄 许可证

本模型采用MIT许可证。

📦 数据集信息

属性	详情
模型类型	基于BERT基础架构的预训练模型
训练数据	该模型使用了522MB的印尼语维基百科数据和1GB的印尼报纸数据进行预训练。文本经过小写处理，并使用WordPiece进行分词，词汇表大小为32,000。模型的输入格式为：`[CLS] Sentence A [SEP] Sentence B [SEP]`