🚀 印度尼西亚DistilBERT基础模型(不区分大小写)
本模型是一个基于印度尼西亚语的预训练模型,它为印度尼西亚语的文本处理任务提供了高效且强大的支持,可用于文本分类、生成等多种下游任务。
🚀 快速开始
本模型是 印度尼西亚BERT基础模型 的蒸馏版本,不区分大小写。它是使用印度尼西亚语数据集预训练的多个语言模型之一。有关其在下游任务(文本分类、文本生成等)中的使用详情,可查看 基于Transformer的印度尼西亚语言模型。
✨ 主要特性
- 蒸馏版本:在保留原模型能力的同时,减少了模型大小和推理时间。
- 不区分大小写:处理文本时不考虑大小写差异。
- 多下游任务支持:可用于文本分类、文本生成等多种任务。
📦 安装指南
文档未提及安装步骤,如需使用该模型,可参考Hugging Face的相关文档进行安装。
💻 使用示例
基础用法
你可以直接使用这个模型进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/distilbert-base-indonesian')
>>> unmasker("Ayahku sedang bekerja di sawah untuk [MASK] padi")
[
{
"sequence": "[CLS] ayahku sedang bekerja di sawah untuk menanam padi [SEP]",
"score": 0.6853187084197998,
"token": 12712,
"token_str": "menanam"
},
{
"sequence": "[CLS] ayahku sedang bekerja di sawah untuk bertani padi [SEP]",
"score": 0.03739545866847038,
"token": 15484,
"token_str": "bertani"
},
{
"sequence": "[CLS] ayahku sedang bekerja di sawah untuk memetik padi [SEP]",
"score": 0.02742469497025013,
"token": 30338,
"token_str": "memetik"
},
{
"sequence": "[CLS] ayahku sedang bekerja di sawah untuk penggilingan padi [SEP]",
"score": 0.02214187942445278,
"token": 28252,
"token_str": "penggilingan"
},
{
"sequence": "[CLS] ayahku sedang bekerja di sawah untuk tanam padi [SEP]",
"score": 0.0185895636677742,
"token": 11308,
"token_str": "tanam"
}
]
高级用法
以下是如何在PyTorch中使用该模型获取给定文本的特征:
from transformers import DistilBertTokenizer, DistilBertModel
model_name='cahya/distilbert-base-indonesian'
tokenizer = DistilBertTokenizer.from_pretrained(model_name)
model = DistilBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
在TensorFlow中的使用方式如下:
from transformers import DistilBertTokenizer, TFDistilBertModel
model_name='cahya/distilbert-base-indonesian'
tokenizer = DistilBertTokenizer.from_pretrained(model_name)
model = TFDistilBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
🔧 技术细节
本模型使用522MB的印度尼西亚语维基百科数据和1GB的 印度尼西亚报纸 数据进行蒸馏训练。文本经过小写处理,并使用WordPiece进行分词,词汇表大小为32,000。模型的输入格式为:
[CLS] 句子A [SEP] 句子B [SEP]
📄 许可证
本模型采用MIT许可证。
属性 |
详情 |
模型类型 |
印度尼西亚DistilBERT基础模型(不区分大小写) |
训练数据 |
522MB的印度尼西亚语维基百科数据和1GB的印度尼西亚报纸数据 |