language: zh
tags:
- 印尼语BERT
- 印尼基准测试
- 印尼自然语言理解
license: mit
inference: false
datasets:
- 印尼4B语料库
IndoBERT-Lite基础模型(第二阶段 - 无大小写区分)
IndoBERT是基于BERT模型针对印尼语开发的顶尖语言模型。该预训练模型采用掩码语言建模(MLM)目标和下一句预测(NSP)目标进行训练。
所有预训练模型
模型 |
参数量 |
架构 |
训练数据 |
indobenchmark/indobert-base-p1 |
1.245亿 |
基础 |
印尼4B语料库(23.43 GB文本) |
indobenchmark/indobert-base-p2 |
1.245亿 |
基础 |
印尼4B语料库(23.43 GB文本) |
indobenchmark/indobert-large-p1 |
3.352亿 |
大型 |
印尼4B语料库(23.43 GB文本) |
indobenchmark/indobert-large-p2 |
3.352亿 |
大型 |
印尼4B语料库(23.43 GB文本) |
indobenchmark/indobert-lite-base-p1 |
1170万 |
基础 |
印尼4B语料库(23.43 GB文本) |
indobenchmark/indobert-lite-base-p2 |
1170万 |
基础 |
印尼4B语料库(23.43 GB文本) |
indobenchmark/indobert-lite-large-p1 |
1770万 |
大型 |
印尼4B语料库(23.43 GB文本) |
indobenchmark/indobert-lite-large-p2 |
1770万 |
大型 |
印尼4B语料库(23.43 GB文本) |
使用方法
加载模型与分词器
from transformers import BertTokenizer, AutoModel
tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-lite-base-p2")
model = AutoModel.from_pretrained("indobenchmark/indobert-lite-base-p2")
提取上下文表征
x = torch.LongTensor(tokenizer.encode('我是[MASK]的孩子')).view(1,-1)
print(x, model(x)[0].sum())
作者
IndoBERT由Bryan Wilie*、Karissa Vincentio*、Genta Indra Winata*、Samuel Cahyawijaya*、Xiaohong Li、Zhi Yuan Lim、Sidik Soleman、Rahmad Mahendra、Pascale Fung、Syafri Bahar、Ayu Purwarianti联合训练与评估。
引用
若使用本成果,请引用:
@inproceedings{wilie2020indonlu,
title={IndoNLU:印尼自然语言理解的基准与资源},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={第一届亚太计算语言学会会议暨第十届国际自然语言处理联合会议论文集},
year={2020}
}