🚀 日语小型GPT-NeoX模型
本项目提供了一个小型的日语GPT - NeoX模型。该模型基于Transformer架构,在多种日语语料上进行训练,可用于文本生成等自然语言处理任务。
🚀 快速开始
本仓库提供了一个小尺寸的日语GPT - NeoX模型。该模型使用基于 [EleutherAI/gpt - neox](https://github.com/EleutherAI/gpt - neox) 的代码进行训练。
✨ 主要特性
- 多语料训练:在 [日语CC - 100](http://data.statmt.org/cc - 100/ja.txt.xz)、日语C4 和 日语维基百科 上进行训练,优化传统语言建模目标。
- 特定功能权重:除预训练模型外,还发布了一个名为
smileface_suffix.task0.weight
的 前缀调整 权重文件,可使生成的句子以笑脸表情 😃 结尾。
- FasterTransformer支持:自5.1版本起,NVIDIA FasterTransformer 支持GPT - NeoX推理和多种软提示(包括前缀调整),本仓库发布的预训练模型和前缀权重已验证可与FasterTransformer 5.1配合使用。
📦 安装指南
使用以下代码加载模型:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-neox-small", use_fast=False)
model = GPTNeoXForCausalLM.from_pretrained("rinna/japanese-gpt-neox-small")
📚 详细文档
模型架构
这是一个基于Transformer的语言模型,具有12层和768的隐藏层大小。
训练数据
模型在以下数据集上进行训练以优化传统语言建模目标:
- [日语CC - 100](http://data.statmt.org/cc - 100/ja.txt.xz)
- 日语C4
- 日语维基百科
分词方式
模型使用基于 sentencepiece 的分词器。
前缀调整权重文件示例
除预训练模型外,还发布了一个名为 smileface_suffix.task0.weight
的 前缀调整 权重文件用于演示。这里的示例前缀调整权重经过训练,促使模型在每个生成的句子末尾添加笑脸表情 😃。可在我们的GitHub仓库 [prefix - tuning - gpt](https://github.com/rinnakk/prefix - tuning - gpt) 中找到前缀调整的训练/推理代码。
以下是分别使用和不使用示例前缀权重生成的一些样本:
不使用前缀权重的3个样本
- 「きっとそれは絶対間違ってないね。 わたしには5か国語に4つの外国語の意味なんてわからない。 でも、とりあえずこの簡単な英文がどんな意味を持つのか知りたいよね!」
- 25分頃に公園に着いて、ベンチに座って待っていると、またしてもS先生から連絡が入りました。 確か、午後の礼拝の時に自分の持ってきたお弁当を食べた記憶が鮮明に残っています。 後でインターネットで検索したら、S先生のブログに飛びました。 今日の晩ごはんは焼きナスを作ってみました! * 上の写真は昨日の朝焼けです。
- CTで歯形ができて、その後さらにその歯形が再び噛めるようになるのは、何が原因だろう? 虫歯になった原因も、口臭かな? それとも歯周病かな? 歯石がとれるまで、、、もうちょっとかかりそう。 子供の虫歯って、なかなか治らないですよね。親兄弟で何度か。 子供の歯根は、親のものになります。 そして自分のものだったり、知らない間に抜いたりし、生えてきたりもします。 大人になって親からみた場合は、白い歯に変わってきて、金属のようーでも悪くなく、親からのむし歯の心配はないですよね。
使用前缀权重的3个样本
- ※海外ブランド品の場合は、返品・返金等はお受け致しかねますので予めご了承願います。 ※ 商品発送後、お客様へ商品返送完了までのスピードを重視する方は海外ブランド品を先に送り付けさせて頂く ケースがございます。 😃
- 私は過去に持っていた不動産を、中古住宅として売却していましたが、その後の私の状況はどうだったのでしょうか? 😃 結果としては、投資物件として売却を考えていますが、今までの相場も読んでいただけばわかると思います。 😃 今まで、物件に対しての投資は非常に控えめにしてきたのですが、今回の提案を読んで、実際に物件を購入する際にはきちんと確認をしようと思います。 😃
- この写真集の表紙をこの台紙にしている作家さんは、まるで誰かの指示を受けて行動している人物のように見える、というのが、この作品をやぶにらんだ「殺し屋集団」の描いている作品であるように思 います。 😃
使用FasterTransformer进行推理
自5.1版本起,NVIDIA FasterTransformer 现在支持GPT - NeoX推理和多种软提示(包括前缀调整)。本仓库发布的预训练模型和前缀权重已验证可与FasterTransformer 5.1配合使用。
发布日期
2022年9月5日
引用方式
@misc{rinna-japanese-gpt-neox-small,
title = {rinna/japanese-gpt-neox-small},
author = {Zhao, Tianyu and Sawada, Kei},
url = {https://huggingface.co/rinna/japanese-gpt-neox-small}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
📄 许可证
本项目采用 MIT许可证。