IndoBERT基础模型(第一阶段 - 无大小写区分)
IndoBERT是基于BERT模型的印尼语先进语言模型。该预训练模型采用掩码语言建模(MLM)目标和下一句预测(NSP)目标进行训练。
所有预训练模型
模型 |
参数量 |
架构 |
训练数据 |
indobenchmark/indobert-base-p1 |
1.245亿 |
基础 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-base-p2 |
1.245亿 |
基础 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-large-p1 |
3.352亿 |
大型 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-large-p2 |
3.352亿 |
大型 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-base-p1 |
1170万 |
基础 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-base-p2 |
1170万 |
基础 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-large-p1 |
1770万 |
大型 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-large-p2 |
1770万 |
大型 |
Indo4B(23.43 GB文本) |
使用方法
加载模型和分词器
from transformers import BertTokenizer, AutoModel
tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-base-p1")
model = AutoModel.from_pretrained("indobenchmark/indobert-base-p1")
提取上下文表示
x = torch.LongTensor(tokenizer.encode('我是[MASK]的孩子')).view(1,-1)
print(x, model(x)[0].sum())
作者
IndoBERT由Bryan Wilie*、Karissa Vincentio*、Genta Indra Winata*、Samuel Cahyawijaya*、Xiaohong Li、Zhi Yuan Lim、Sidik Soleman、Rahmad Mahendra、Pascale Fung、Syafri Bahar、Ayu Purwarianti共同训练和评估。
引用
如需使用我们的工作,请引用:
@inproceedings{wilie2020indonlu,
title={IndoNLU:印尼自然语言理解的基准与资源},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={第一届亚太计算语言学会会议暨第十届国际自然语言处理联合会议论文集},
year={2020}
}