许可证:Apache-2.0
语言:
- 英文
- 日文
编程语言:
- C
- C++
- C#
- Go
- Java
- JavaScript
- Lua
- PHP
- Python
- Ruby
- Rust
- Scala
- TypeScript
库名称:transformers
任务标签:文本生成
推理支持:否
llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
本仓库提供由日本合作项目LLM-jp开发的大规模语言模型。
依赖库及版本要求
- torch>=2.0.0
- transformers>=4.34.0
- tokenizers>=0.14.0
- accelerate==0.23.0
使用示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
text = text + "### 回答:"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
)[0]
print(tokenizer.decode(output))
模型详情
- 模型类型: 基于Transformer的语言模型
- 总训练token数: 3000亿
模型 |
参数量 |
层数 |
隐藏层维度 |
注意力头数 |
上下文长度 |
13b模型 |
130亿 |
40 |
5120 |
40 |
2048 |
1.3b模型 |
13亿 |
24 |
2048 |
16 |
2048 |
训练过程
-
预训练阶段:
- 硬件: 96块A100 40GB GPU(mdx集群)
- 软件: Megatron-DeepSpeed
-
指令微调阶段:
分词器
本模型的分词器基于huggingface/tokenizers的Unigram字节回退模型,词表条目转换自llm-jp-tokenizer v2.1 (50k)
。具体词表构建流程请参阅llm-ja-tokenizer
的README.md。
- 模型: 使用Unigram字节回退模型的Hugging Face快速分词器(需
tokenizers>=0.14.0
)
- 训练算法: SentencePiece Unigram字节回退
- 训练数据: 模型预训练数据集的子集
- 词表大小: 50,570(混合日语、英语及源代码词汇)
数据集
预训练数据
模型预训练使用了以下数据集的混合。
预训练过程采用10轮非重叠数据连续训练,每轮约270-280亿token。最终阶段额外使用来自相同数据源的270亿高质量token数据进行补充训练。
指令微调数据
模型在以下数据集上进行了微调。
评估
可通过该排行榜查看多个LLM的评估结果。评估使用llm-jp-eval工具进行。
风险与限制
当前发布的模型仍处于研发早期阶段,尚未经过充分调优以确保输出符合人类意图与安全考量。
问题反馈
llm-jp(at)nii.ac.jp
许可证
Apache License, Version 2.0
模型卡作者
按字母顺序排列
Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.