gpt2-medium-indonesian开源模型 - 免费支持印尼语文本生成任务

首页

Gpt2 Medium Indonesian

由 flax-community 开发

基于印尼语的GPT-2中型预训练模型，采用因果语言建模目标训练，适用于印尼语文本生成任务。

大型语言模型其他#印尼语生成 #多领域文本生成 #低资源优化

下载量 100

发布时间 : 3/2/2022

模型简介

这是一个基于印尼语的预训练模型，采用因果语言建模（CLM）目标，适用于印尼语文本生成和相关任务。

模型特点

印尼语优化

专门针对印尼语进行训练和优化，适合印尼语文本生成任务。

基于Flax框架

使用HuggingFace的Flax框架训练，支持JAX/Flax生态系统。

多数据集训练

在OSCAR、mc4和维基百科印尼语内容组合数据集上训练，数据量达29GB。

模型能力

印尼语文本生成

语言模型微调基础

文本特征提取

使用案例

文本生成

创意写作

生成印尼语诗歌、故事等创意文本

可生成连贯的印尼语文本段落

内容补全

根据给定开头补全印尼语句子或段落

能生成语义连贯的后续内容

教育

语言学习

作为印尼语学习者的辅助工具

提供自然的印尼语示例

🚀 GPT2-medium-indonesian

这是一个基于印尼语的预训练模型，采用因果语言建模（CLM）目标进行训练。该目标首次在这篇论文中被提出，并首次在此页面发布。

此模型使用HuggingFace的Flax框架进行训练，是由HuggingFace组织的JAX/Flax社区周的一部分。所有训练均在由谷歌云团队赞助的TPUv3 - 8虚拟机上完成。

演示可在此处查看。

🚀 快速开始

✨ 主要特性

基于因果语言建模（CLM）目标在印尼语上进行预训练。
使用HuggingFace的Flax框架训练。
训练在谷歌云团队赞助的TPUv3 - 8虚拟机上完成。

📦 安装指南

文档未提及安装步骤，如需使用可参考transformers库的安装方法。

💻 使用示例

基础用法

你可以直接使用文本生成管道来使用此模型。由于生成过程依赖一定的随机性，我们设置了一个种子以确保结果可复现：

>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='flax-community/gpt2-medium-indonesian')
>>> set_seed(42)
>>> generator("Sewindu sudah kita tak berjumpa,", max_length=30, num_return_sequences=5)

[{'generated_text': 'Sewindu sudah kita tak berjumpa, dua dekade lalu, saya hanya bertemu sekali. Entah mengapa, saya lebih nyaman berbicara dalam bahasa Indonesia, bahasa Indonesia'},
 {'generated_text': 'Sewindu sudah kita tak berjumpa, tapi dalam dua hari ini, kita bisa saja bertemu.”\
“Kau tau, bagaimana dulu kita bertemu?” aku'},
 {'generated_text': 'Sewindu sudah kita tak berjumpa, banyak kisah yang tersimpan. Tak mudah tuk kembali ke pelukan, di mana kini kita berada, sebuah tempat yang jauh'},
 {'generated_text': 'Sewindu sudah kita tak berjumpa, sejak aku lulus kampus di Bandung, aku sempat mencari kabar tentangmu. Ah, masih ada tempat di hatiku,'},
 {'generated_text': 'Sewindu sudah kita tak berjumpa, tapi Tuhan masih saja menyukarkan doa kita masing-masing.\
Tuhan akan memberi lebih dari apa yang kita'}]

高级用法

以下是如何在PyTorch中使用此模型获取给定文本的特征：

from transformers import GPT2Tokenizer, GPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('flax-community/gpt2-medium-indonesian')
model = GPT2Model.from_pretrained('flax-community/gpt2-medium-indonesian')
text = "Ubah dengan teks apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方法：

from transformers import GPT2Tokenizer, TFGPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('flax-community/gpt2-medium-indonesian')
model = TFGPT2Model.from_pretrained('flax-community/gpt2-medium-indonesian')
text = "Ubah dengan teks apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 详细文档

局限性和偏差

此模型的训练数据来自OSCAR、mc4和Wikipedia的印尼语网站。这些数据集包含大量来自互联网的未过滤内容，远非中立。虽然我们对数据集进行了一些过滤（见训练数据部分），但过滤绝不能彻底消除最终用于训练数据中的有偏差内容。这些偏差也可能影响使用此模型进行微调的模型。

正如OpenAI团队在他们的模型卡片中指出的：

⚠️ 重要提示

由于像GPT - 2这样的大规模语言模型无法区分事实与虚构，我们不支持要求生成文本必须为真实内容的用例。

💡 使用建议

此外，像GPT - 2这样的语言模型反映了其训练系统中固有的偏差，因此我们不建议将它们部署到与人类交互的系统中，除非部署者首先对与预期用例相关的偏差进行研究。我们发现7.74亿和15亿参数模型在性别、种族和宗教偏差探测方面没有统计学上的显著差异，这意味着在处理对人类属性偏差敏感的用例时，所有版本的GPT - 2都应采取类似程度的谨慎态度。

我们基于对波兰语GPT2的偏差分析进行了修改，对印尼语GPT2 medium进行了基本的偏差分析，你可以在这个笔记本中查看。