许可协议: mit
数据集:
- indonesian-nlp/wikipedia-id
语言:
- id
评估指标:
- 困惑度
印尼语GPT2小模型
模型描述
这是一个基于印尼语维基百科数据、采用因果语言建模(CLM)目标预训练的GPT2-small模型。该模型不区分大小写:例如"indonesia"和"Indonesia"会被视为相同。
这是使用印尼语数据集预训练的多个语言模型之一。关于其在文本分类、文本生成等下游任务中的更多使用细节,请参阅基于Transformer的印尼语语言模型。
预期用途与限制
使用方法
您可以直接使用该模型进行文本生成的流水线操作。由于生成过程存在随机性,我们设置了随机种子以确保结果可复现:
>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='cahya/gpt2-small-indonesian-522M')
>>> set_seed(42)
>>> generator("Kerajaan Majapahit adalah", max_length=30, num_return_sequences=5, num_beams=10)
[{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-14'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-14'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-15'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-15'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini merupakan kelanjutan dari Kerajaan Majapahit yang'}]
以下是使用PyTorch获取给定文本特征的示例:
from transformers import GPT2Tokenizer, GPT2Model
model_name='cahya/gpt2-small-indonesian-522M'
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2Model.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
以及在TensorFlow中的使用方式:
from transformers import GPT2Tokenizer, TFGPT2Model
model_name='cahya/gpt2-small-indonesian-522M'
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = TFGPT2Model.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
训练数据
该模型使用522MB的印尼语维基百科数据进行预训练。
文本采用字节级字节对编码(BPE)(针对Unicode字符)进行分词,词汇量为52,000。输入为128个连续标记组成的序列。