许可证:Apache-2.0
支持语言:
- 英语
- 日语
编程语言:
- C
- C++
- C#
- Go
- Java
- JavaScript
- Lua
- PHP
- Python
- Ruby
- Rust
- Scala
- TypeScript
库名称:transformers
任务标签:文本生成
推理支持:否
llm-jp-13b-v1.0
本仓库提供由日本发起的合作项目LLM-jp开发的大语言模型。
依赖库及版本要求
- torch>=2.0.0
- transformers>=4.34.0
- tokenizers>=0.14.0
- accelerate==0.23.0
使用示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
)[0]
print(tokenizer.decode(output))
模型详情
- 模型类型: 基于Transformer的语言模型
- 总训练token数: 3000亿
模型 |
参数量 |
层数 |
隐藏层维度 |
注意力头数 |
上下文长度 |
13b模型 |
130亿 |
40 |
5120 |
40 |
2048 |
1.3b模型 |
13亿 |
24 |
2048 |
16 |
2048 |
训练过程
-
预训练阶段:
- 硬件配置: 96块A100 40GB GPU(mdx集群)
- 软件栈: Megatron-DeepSpeed
-
指令微调阶段:
分词器
本模型分词器基于huggingface/tokenizers的Unigram字节回退模型。
词表条目来自llm-jp-tokenizer v2.1 (50k)
。
关于词表构建流程的详细信息请参阅llm-ja-tokenizer
的README.md。
- 模型类型: 使用Unigram字节回退模型的Hugging Face快速分词器(需
tokenizers>=0.14.0
)
- 训练算法: SentencePiece Unigram字节回退
- 训练数据: 模型预训练数据集的子集
- 词表大小: 50,570(混合日语、英语及源代码词汇)
数据集
预训练阶段
模型预训练使用了以下数据集的混合数据。
预训练过程采用10轮非重叠数据连续训练,每轮约270-280亿token。
最终阶段额外使用来自相同数据源的270亿高质量token数据进行补充训练。
指令微调阶段
模型在以下数据集上进行微调。
评估
您可以在排行榜查看多个LLM的评估结果。我们使用llm-jp-eval进行评估。
风险与局限性
当前发布的模型仍处于研发早期阶段,尚未经过充分调优以确保输出符合人类意图和安全考量。
问题咨询
llm-jp(at)nii.ac.jp
许可证
Apache License, Version 2.0
模型卡片作者
按字母顺序排列
Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.