🚀 🇹🇷 土耳其语 GPT - 2 模型
本仓库发布了一个基于多种土耳其语文本训练的 GPT - 2 模型。该模型可作为在其他文本上进行微调的起点。
🚀 快速开始
模型使用
模型本身可以按如下方式使用:
from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")
下面是一个使用强大的 Transformers Pipelines 进行文本生成的示例:
from transformers import pipeline
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)
克隆模型仓库
git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased
✨ 主要特性
- 该模型基于多种土耳其语文本进行训练,可作为在其他文本上微调的起点。
- 提供了与 PyTorch 和 TensorFlow 兼容的模型权重。
📦 安装指南
克隆模型仓库的步骤如下:
git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")
高级用法
from transformers import pipeline
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)
📚 详细文档
训练语料
使用了从 oscar - corpus 中获取的土耳其语语料。借助 Huggingface 的 Tokenizers 库创建了字节级 BPE。基于训练语料库,使用 Tokenizers 库创建了一个包含 52K 的字节级 BPE 词汇表。创建词汇表后,在两块 2080TI 显卡上,对完整的训练语料库进行了五个轮次的训练,从而得到了适用于土耳其语的 GPT - 2 模型。
训练期间的日志:
https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars
模型权重
同时提供了与 PyTorch 和 TensorFlow 兼容的模型权重。
🔧 技术细节
在训练过程中,使用了字节级 BPE 分词方法,借助 Huggingface 的 Tokenizers 库创建了 52K 的字节级 BPE 词汇表。训练在两块 2080TI 显卡上进行,对完整的训练语料库进行了五个轮次的训练。训练日志可通过链接查看:https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars 。
📄 联系信息(问题反馈、贡献等)
如果您对土耳其语 GPT - 2 模型有任何疑问,请在此处提交问题 🤗。