gpt2-small-indonesian-522M开源模型 - 免费部署助力印尼语文本生成

首页

Gpt2 Small Indonesian 522M

由 cahya 开发

这是一个基于印尼语维基百科数据预训练的GPT2-small模型，专注于印尼语文本生成任务。

大型语言模型其他开源协议:MIT #印尼语生成 #小规模预训练 #维基百科语料

下载量 1,900

发布时间 : 3/2/2022

模型简介

该模型采用因果语言建模(CLM)目标在522MB印尼语维基百科数据上预训练，支持印尼语文本生成。模型不区分大小写，适用于多种下游NLP任务。

模型特点

印尼语优化

专门针对印尼语进行预训练，在印尼语文本生成任务上表现良好

不区分大小写

模型对大小写不敏感，如'indonesia'和'Indonesia'会被视为相同

高效分词

采用字节级字节对编码(BPE)，词汇量为52,000，能有效处理Unicode字符

模型能力

印尼语文本生成

语言模型特征提取

上下文理解

使用案例

教育/文化

历史文本生成

生成关于印尼历史的连贯文本

如示例中生成的关于Majapahit王国的历史描述

内容创作

印尼语内容自动生成

辅助创作印尼语文章、故事等内容

🚀 印度尼西亚GPT2小模型

本模型是基于因果语言建模（CLM）目标，使用印度尼西亚维基百科数据预训练的GPT2小模型。它不区分大小写，例如“indonesia”和“Indonesia”会被视为相同。该模型可用于文本分类、文本生成等下游任务。

🚀 快速开始

如何使用

你可以直接使用此模型通过管道进行文本生成。由于生成过程具有一定随机性，为保证结果可复现，我们设置了随机种子：

>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='cahya/gpt2-small-indonesian-522M')
>>> set_seed(42)
>>> generator("Kerajaan Majapahit adalah", max_length=30, num_return_sequences=5, num_beams=10)

[{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-14'}, 
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-14'}, 
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-15'}, 
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-15'}, 
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini merupakan kelanjutan dari Kerajaan Majapahit yang'}]

以下是在PyTorch中使用该模型获取给定文本特征的方法：

from transformers import GPT2Tokenizer, GPT2Model

model_name='cahya/gpt2-small-indonesian-522M'
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2Model.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方法如下：

from transformers import GPT2Tokenizer, TFGPT2Model

model_name='cahya/gpt2-small-indonesian-522M'
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = TFGPT2Model.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

✨ 主要特性

这是使用印度尼西亚数据集预训练的多个语言模型之一。关于其在下游任务（如文本分类、文本生成等）中的更多使用细节，请参考基于Transformer的印度尼西亚语言模型。

🔧 技术细节

训练数据

该模型使用522MB的印度尼西亚维基百科数据进行预训练。文本使用字节级的字节对编码（BPE）（针对Unicode字符）进行分词，词汇量大小为52,000。输入为128个连续标记的序列。

📄 许可证

本模型采用MIT许可证。

属性	详情
模型类型	印度尼西亚GPT2小模型
训练数据	522MB的印度尼西亚维基百科数据
评估指标	困惑度
数据集	indonesian-nlp/wikipedia-id
语言	印度尼西亚语