语言: 印尼语
标签:
- 印尼BERT
- 印尼基准测试
- 印尼自然语言理解
许可证: MIT
推理: 不支持
数据集:
- Indo4B
IndoBERT-Lite 大型模型(第二阶段 - 无大小写区分)
IndoBERT 是基于BERT模型、专为印尼语打造的先进语言模型。该预训练模型通过掩码语言建模(MLM)目标和下一句预测(NSP)目标进行训练。
所有预训练模型
模型 |
参数量 |
架构 |
训练数据 |
indobenchmark/indobert-base-p1 |
124.5M |
基础版 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-base-p2 |
124.5M |
基础版 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-large-p1 |
335.2M |
大型版 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-large-p2 |
335.2M |
大型版 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-base-p1 |
11.7M |
基础版 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-base-p2 |
11.7M |
基础版 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-large-p1 |
17.7M |
大型版 |
Indo4B(23.43 GB文本) |
indobenchmark/indobert-lite-large-p2 |
17.7M |
大型版 |
Indo4B(23.43 GB文本) |
使用方法
加载模型和分词器
from transformers import BertTokenizer, AutoModel
tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-lite-large-p2")
model = AutoModel.from_pretrained("indobenchmark/indobert-lite-large-p2")
提取上下文表示
x = torch.LongTensor(tokenizer.encode('aku adalah anak [MASK]')).view(1,-1)
print(x, model(x)[0].sum())
作者
IndoBERT 由Bryan Wilie*、Karissa Vincentio*、Genta Indra Winata*、Samuel Cahyawijaya*、Xiaohong Li、Zhi Yuan Lim、Sidik Soleman、Rahmad Mahendra、Pascale Fung、Syafri Bahar、Ayu Purwarianti共同训练和评估。
引用
如果您使用了我们的工作,请引用:
@inproceedings{wilie2020indonlu,
title={IndoNLU: 印尼自然语言理解的基准与资源},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={第一届亚太计算语言学会会议暨第十届国际自然语言处理联合会议论文集},
year={2020}
}