语言: 印度尼西亚语
标签:
- 印尼版BERT
- 印尼基准测试
- 印尼自然语言理解
许可证: MIT
推理: 不支持
数据集:
- Indo4B
IndoBERT-Lite基础模型(第一阶段 - 无大小写区分)
IndoBERT是基于BERT模型针对印尼语的先进语言模型。该预训练模型采用掩码语言建模(MLM)目标和下一句预测(NSP)目标进行训练。
所有预训练模型
模型 |
参数量 |
架构 |
训练数据 |
indobenchmark/indobert-base-p1 |
124.5M |
基础 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-base-p2 |
124.5M |
基础 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-large-p1 |
335.2M |
大型 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-large-p2 |
335.2M |
大型 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-base-p1 |
11.7M |
基础 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-base-p2 |
11.7M |
基础 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-large-p1 |
17.7M |
大型 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-large-p2 |
17.7M |
大型 |
Indo4B(23.43 GB文本) |
使用方法
加载模型和分词器
from transformers import BertTokenizer, AutoModel
tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-lite-base-p1")
model = AutoModel.from_pretrained("indobenchmark/indobert-lite-base-p1")
提取上下文表示
x = torch.LongTensor(tokenizer.encode('aku adalah anak [MASK]')).view(1,-1)
print(x, model(x)[0].sum())
作者
IndoBERT由Bryan Wilie*、Karissa Vincentio*、Genta Indra Winata*、Samuel Cahyawijaya*、Xiaohong Li、Zhi Yuan Lim、Sidik Soleman、Rahmad Mahendra、Pascale Fung、Syafri Bahar、Ayu Purwarianti联合训练与评估。
引用
若使用我们的成果,请引用:
@inproceedings{wilie2020indonlu,
title={IndoNLU: 印尼自然语言理解的基准与资源},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={第一届亚太计算语言学协会会议暨第十届国际自然语言处理联合会议论文集},
year={2020}
}