gpt2-turkish-cased开源模型 - 免费用于土耳其语文本生成任务起点

首页

Gpt2 Turkish Cased

由 redrussianarmy 开发

针对土耳其语文本训练的GPT-2模型，可作为文本生成任务的起点

大型语言模型其他#土耳其语文本生成 #BPE编码优化 #多轮预训练

下载量 1,060

发布时间 : 3/2/2022

模型简介

这是一个基于GPT-2架构的土耳其语语言模型，专门针对土耳其语文本进行训练，适用于各类土耳其语文本生成任务。

模型特点

土耳其语专用

专门针对土耳其语文本训练，优化了土耳其语文本生成能力

基于大规模语料

使用来自oscar-corpus的土耳其语语料库进行训练

多框架支持

同时提供PyTorch和Tensorflow兼容的权重文件

模型能力

土耳其语文本生成

语言模型微调基础

使用案例

文本生成

创意写作

生成土耳其语故事、诗歌等创意文本

内容补全

根据给定开头补全土耳其语句子或段落

教育

语言学习

作为土耳其语学习辅助工具

🚀 🇹🇷 土耳其语 GPT - 2 模型

本仓库发布了一个基于多种土耳其语文本训练的 GPT - 2 模型。该模型可作为在其他文本上进行微调的起点。

🚀 快速开始

模型使用

模型本身可以按如下方式使用：

from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")

下面是一个使用强大的 Transformers Pipelines 进行文本生成的示例：

from transformers import pipeline
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
                 tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})   
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)

克隆模型仓库

git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased

✨ 主要特性

该模型基于多种土耳其语文本进行训练，可作为在其他文本上微调的起点。
提供了与 PyTorch 和 TensorFlow 兼容的模型权重。

📦 安装指南

克隆模型仓库的步骤如下：

git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")

高级用法

from transformers import pipeline
# 使用 Transformers Pipelines 进行文本生成，配置最大长度为 800
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
                 tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})   
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)

📚 详细文档

训练语料

使用了从 oscar - corpus 中获取的土耳其语语料。借助 Huggingface 的 Tokenizers 库创建了字节级 BPE。基于训练语料库，使用 Tokenizers 库创建了一个包含 52K 的字节级 BPE 词汇表。创建词汇表后，在两块 2080TI 显卡上，对完整的训练语料库进行了五个轮次的训练，从而得到了适用于土耳其语的 GPT - 2 模型。

训练期间的日志： https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars

模型权重

同时提供了与 PyTorch 和 TensorFlow 兼容的模型权重。

属性	详情
模型类型	`redrussianarmy/gpt2-turkish-cased`
下载链接	`config.json` • `merges.txt` • `pytorch_model.bin` • `special_tokens_map.json` • `tf_model.h5` • `tokenizer_config.json` • `traning_args.bin` • `vocab.json`

🔧 技术细节

在训练过程中，使用了字节级 BPE 分词方法，借助 Huggingface 的 Tokenizers 库创建了 52K 的字节级 BPE 词汇表。训练在两块 2080TI 显卡上进行，对完整的训练语料库进行了五个轮次的训练。训练日志可通过链接查看：https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars 。