slovak-gpt-j-405M开源斯洛伐克语生成模型

首页

Slovak Gpt J 405M

由 Milos 开发

基于GPT-J架构的4.05亿参数斯洛伐克语生成模型，训练数据包含多种类型文本

大型语言模型

Transformers

其他开源协议:Gpl-3.0 #斯洛伐克语生成 #大语言模型 #文本创作

下载量 7,016

发布时间 : 3/2/2022

模型简介

斯洛伐克GPT-J系列中的中等规模模型，主要用于斯洛伐克语文本生成任务

模型特点

大规模斯洛伐克语训练

使用超过40GB的多样化斯洛伐克语文本训练

旋转位置嵌入

采用RoPE位置编码技术增强长文本处理能力

优化分词处理

针对斯洛伐克语优化的ByteLevelBPETokenizer

模型能力

斯洛伐克语文本生成

语言特征提取

基于提示的内容创作

使用案例

内容生成

文章写作

根据主题提示生成连贯的斯洛伐克语文章

能生成语法正确的指南类文章

对话模拟

生成斯洛伐克语对话内容

可能出现重复需调整参数优化

教育辅助

语言学习

生成斯洛伐克语学习材料

🚀 斯洛伐克GPT-J-405M

斯洛伐克GPT-J-405M是斯洛伐克GPT-J系列中发布的第二款模型，此前发布了较小版本的斯洛伐克GPT-J-162M。此后，又发布了更大的斯洛伐克GPT-J-1.4B。

📚 详细文档

模型描述

该模型基于GPT-J构建，拥有超过4.05亿个可训练参数。

属性	详情
模型类型	基于GPT - J，拥有超4.05亿可训练参数
训练数据	主要由斯洛伐克语不同类别文本组成的私有数据集，超40GB文本数据

| 超参数 | 值 | | ---- | ---- | | \\(n_{parameters}\\) | 405,677,136 | | \\(n_{layers}\\) | 24 | | \\(d_{model}\\) | 1024 | | \\(d_{ff}\\) | 16384 | | \\(n_{heads}\\) | 16 | | \\(d_{head}\\) | 256 | | \\(n_{ctx}\\) | 2048 | | \\(n_{vocab}\\) | 50256（与GPT - 2/3使用相同的分词器†） | | 位置编码 | [旋转位置嵌入（RoPE）](https://arxiv.org/abs/2104.09864) | | RoPE维度 | [64](https://github.com/kingoflolz/mesh-transformer-jax/blob/f2aa66e0925de6593dcbb70e72399b97b4130482/mesh_transformer/layers.py#L223) |

† ByteLevelBPETokenizer在相同的斯洛伐克语语料库上进行训练。

训练数据

斯洛伐克GPT - J模型在一个私有收集的数据集上进行训练，该数据集主要由斯洛伐克语不同类别的文本组成，例如网页、新闻文章甚至圣经文本。总共使用了超过40GB的文本数据来训练这个模型。该数据集经过了特定的预处理和清理，其中涉及一些细微但需要注意的事项。因此，为了达到预期的性能，请参考[使用方法]部分。请记住，尽管努力移除了不适当的语料，但模型仍可能生成敏感内容或泄露敏感信息。

训练过程

该模型在TPU v3 - 8 pod上经过69,001步，对超过365亿个标记进行了训练。最后一步的交叉熵验证损失为2.821。

预期用途

与原始的GPT - J一样，斯洛伐克GPT - J学习语言的内部表示，可用于提取对下游任务有用的特征。不过，其预期用途是根据提示进行文本生成。

💻 使用示例

基础用法

可以使用AutoModelForCausalLM功能轻松加载该模型和分词器：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Milos/slovak-gpt-j-405M")
model = AutoModelForCausalLM.from_pretrained("Milos/slovak-gpt-j-405M")

在生成提示时，请记住以下三点：

不要留有尾随空格。分词器对“Mám rád slovenčinu”（slovenčinu后无空格）和“Mám rád slovenčinu ”（slovenčinu后有尾随空格）的编码是不同的，即[12805, 2872, 46878] != [12805, 2872, 46878, 221]。
始终使用标准的美式英语双引号，即""而不是„“。
换行时始终输入\n\n而不是单个\n

以下是一个基本文本生成的示例：

>>> prompt = "Tradičné jedlo na Orave sú"
>>> encoded_input = tokenizer(prompt, return_tensors='pt')
>>> output = model.generate(**encoded_input)
>>> tokenizer.decode(output[0])
'Tradičné jedlo na Orave sú bryndzové halušky\n\nNa Orave sa v minulosti varilo viac druhov'

高级用法

生成“How to”文章

PROMPT
Ako napísať pôsobivú esej krok za krokom
OUTPUT
Ako napísať pôsobivú esej krok za krokom

V tomto článku sa dozviete, ako napísať esej, ktorá bude mať v sebe niečo, čo zaujme a bude sa vám páčiť.

V prvom rade si musíte uvedomiť, že esej je vlastne písaný text, ktorý má byť napísaný na počítači.'

不过，不建议依赖该模型生成事实准确的信息。

生成聊天对话

PROMPT
Peter: Ako sa mas?

Lucia: Ale celkom dobre. Co si robil?

Peter:
OUTPUT
Peter: Ako sa mas?

Lucia: Ale celkom dobre. Co si robil?

Peter: No, bol som na chate.

Lucia: A co si tam robil?

Peter: No, bol som tam s kamošmi.

Lucia: A co si tam robil?

Peter: No, bol som tam s kamošmi.

显然，在这个特定上下文中，要么彼得们更有可能表现得可疑，要么模型存在问题。我们假设第二种解释可能有一定道理。一般来说，GPT模型可能（而且经常会）陷入生成相同内容的循环。这是一个超出本README范围的常见问题，不过，请参阅generate的文档，了解如何引入频率/重复惩罚。

由于数据集包含亵渎性、政治不正确的语言，并且（无意地）甚至包含一些捷克语文本，模型在一定程度上也可能生成这些内容。以下是当提示为捷克语时模型输出的示例：

>>> prompt = "Věta nesmí být sprostá a musí být zcela"
>>> encoded_input = tokenizer(prompt, return_tensors='pt')
>>> output = model.generate(**encoded_input, max_length=16)
>>> tokenizer.decode(output[0])
'Věta nesmí být sprostá a musí být zcela pravdivá.'

📄 许可证

本项目采用GPL - 3.0许可证。

📚 引用及相关信息

这是2021年夏天作为副业项目完成的，目的是更好地理解Transformer。当时没有太多空闲时间将其正确开源，所以这些内容一直放在我的硬盘里，直到现在。

如果您使用此模型或有任何相关问题，请在Twitter上联系我，或查看我的GitHub个人资料。

BibTeX引用

引用此模型：

@misc{slovak-gpt-j-405m,
  author = {Kondela, Milos},
  title = {{Slovak GPT-J-405M}},
  howpublished = {\url{https://huggingface.co/Milos/slovak-gpt-j-405M}},
  year = 2022,
  month = February
}

引用训练此模型的代码库：

@misc{mesh-transformer-jax,
  author = {Wang, Ben},
  title = {{Mesh-Transformer-JAX: Model-Parallel Implementation of Transformer Language Model with JAX}},
  howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
  year = 2021,
  month = May
}