gpt2-small-indonesian开源印尼语生成模型 - 免费实现文本生成内容创作

首页

Gpt2 Small Indonesian

由 flax-community 开发

基于因果语言建模目标预训练的印尼语生成模型，使用Flax框架在TPUv3-8上训练

大型语言模型其他#印尼语文本生成 #多领域适应性 #低资源优化

下载量 290

发布时间 : 3/2/2022

模型简介

这是一个基于GPT-2架构的小型印尼语文本生成模型，适用于印尼语文本生成任务。模型在OSCAR、mc4和维基百科的印尼语内容上训练，可用于生成连贯的印尼语文本。

模型特点

印尼语优化

专门针对印尼语文本进行训练和优化，生成质量较高

轻量级模型

小型GPT-2模型，适合资源有限的环境部署

多框架支持

支持PyTorch、TensorFlow和Flax/JAX框架

模型能力

印尼语文本生成

文本续写

对话生成

使用案例

内容创作

诗歌生成

根据开头生成印尼语诗歌

示例展示了情感丰富的诗歌续写能力

故事创作

生成连贯的印尼语短篇故事

能保持上下文一致性生成多段落文本

教育

语言学习辅助

生成印尼语学习例句

可生成语法正确的示范句子

🚀 GPT2-small-indonesian

这是一个基于因果语言建模（CLM）目标在印尼语上进行预训练的模型。因果语言建模首次在这篇论文中被提出，并首次在此页面发布。该模型使用HuggingFace的Flax框架进行训练，是由HuggingFace组织的JAX/Flax社区周的一部分。所有训练均在由谷歌云团队赞助的TPUv3 - 8虚拟机上完成。你可以在这里找到该模型的演示。

🚀 快速开始

你可以直接使用文本生成管道来使用这个模型。由于生成过程依赖于一定的随机性，为了保证结果可复现，我们设置了一个随机种子：

>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='flax-community/gpt2-small-indonesian')
>>> set_seed(42)
>>> generator("Sewindu sudah kita tak berjumpa,", max_length=30, num_return_sequences=5)

[{'generated_text': 'Sewindu sudah kita tak berjumpa, dua dekade lalu, saya hanya bertemu sekali. Entah mengapa, saya lebih nyaman berbicara dalam bahasa Indonesia, bahasa Indonesia'},
 {'generated_text': 'Sewindu sudah kita tak berjumpa, tapi dalam dua hari ini, kita bisa saja bertemu.”\
“Kau tau, bagaimana dulu kita bertemu?” aku'},
 {'generated_text': 'Sewindu sudah kita tak berjumpa, banyak kisah yang tersimpan. Tak mudah tuk kembali ke pelukan, di mana kini kita berada, sebuah tempat yang jauh'},
 {'generated_text': 'Sewindu sudah kita tak berjumpa, sejak aku lulus kampus di Bandung, aku sempat mencari kabar tentangmu. Ah, masih ada tempat di hatiku,'},
 {'generated_text': 'Sewindu sudah kita tak berjumpa, tapi Tuhan masih saja menyukarkan doa kita masing-masing.\
Tuhan akan memberi lebih dari apa yang kita'}]

以下是如何在PyTorch中使用此模型获取给定文本的特征：

from transformers import GPT2Tokenizer, GPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('flax-community/gpt2-small-indonesian')
model = GPT2Model.from_pretrained('flax-community/gpt2-small-indonesian')
text = "Ubah dengan teks apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方法如下：

from transformers import GPT2Tokenizer, TFGPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('flax-community/gpt2-small-indonesian')
model = TFGPT2Model.from_pretrained('flax-community/gpt2-small-indonesian')
text = "Ubah dengan teks apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

💡 局限性和偏差

该模型的训练数据来自印尼语网站，包括OSCAR、mc4和维基百科。这些数据集包含了大量来自互联网的未经过滤的内容，远非中立。虽然我们对数据集进行了一些过滤（见“训练数据”部分），但这种过滤绝不能完全消除训练数据中最终使用的有偏差的内容。这些偏差也可能会影响使用此模型进行微调的模型。

正如OpenAI团队在他们的模型卡片中指出的：

由于像GPT - 2这样的大规模语言模型无法区分事实和虚构，因此我们不支持要求生成文本为真实内容的用例。

此外，像GPT - 2这样的语言模型反映了它们所训练的系统中固有的偏差，因此我们不建议将它们部署到与人类交互的系统中，除非部署者首先对与预期用例相关的偏差进行研究。我们发现7.74亿和15亿参数的模型在性别、种族和宗教偏差探测方面没有统计学上的显著差异，这意味着在处理对人类属性偏差敏感的用例时，所有版本的GPT - 2都应采取类似程度的谨慎态度。

我们进行了一项基本的偏差分析，你可以在这个笔记本中找到相关内容。该分析基于对波兰语GPT2的偏差分析进行了修改，在印尼语GPT2中等规模模型上进行。

性别偏差

我们以 “She/He works as” 为提示词生成了50篇文本。经过一些预处理（转换为小写并去除停用词）后，我们得到了用于生成男女职业词云的文本。男性职业中最突出的术语有：driver（司机）、sopir（司机）、ojek、tukang、online。

gender bias - male

女性职业中最突出的术语有：pegawai（员工）、konsultan（顾问）、asisten（助理）。

gender bias - female

种族偏差

我们生成了1200篇文本，以评估跨种族和性别向量的偏差。我们将使用以下方案创建提示词：

人物：我们将评估5个种族：巽他族、巴塔克族、米纳哈萨族、达雅克族、阿斯马特族、中立（无种族）。
主题：我们将使用5个不同的主题：
- 随机行为：entered home（进入家中）
- 说话：said（说）
- 职业：works as（从事……工作）
- 意图：let [person] ...（让[某人]……）
- 定义：is（是）