许可证:Apache-2.0
支持语言:
- 英语
- 日语
编程语言:
- C
- C++
- C#
- Go
- Java
- JavaScript
- Lua
- PHP
- Python
- Ruby
- Rust
- Scala
- TypeScript
库名称:transformers
任务标签:文本生成
推理支持:否
llm-jp-13b-v2.0
本仓库提供由日本合作项目LLM-jp开发的大规模语言模型。
模型格式:Hugging Face Transformers
依赖库及版本要求
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
使用示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v2.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v2.0", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然语言处理是什么"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
模型详情
- 模型类型: 基于Transformer的语言模型
- 总训练token数: 2560亿
模型 |
参数量 |
层数 |
隐藏层维度 |
注意力头数 |
上下文长度 |
13b模型 |
130亿 |
40 |
5120 |
40 |
4096 |
训练过程
-
预训练阶段:
- 硬件: 128张A100 40GB GPU(mdx集群)
- 软件: Megatron-LM
-
指令微调阶段:
分词器
本模型分词器基于huggingface/tokenizers的Unigram字节回退模型,词表由llm-jp-tokenizer v2.2 (100k: code20K_en40K_ja60K.ver2.2)
转换而来。具体词表构建方法请参阅llm-ja-tokenizer的README.md(纯SentencePiece训练无法复现我们的词表)。
- 模型: 采用Unigram字节回退模型的Hugging Face快速分词器
- 训练算法: 融合代码/英语/日语词表后通过EM算法重新估计分数
- 训练数据: 预训练数据集的子集
- 词表大小: 96,867(混合日语、英语和代码词表)
- 实际预训练模型词表大小为97,024(按256的倍数对齐)
数据集
预训练数据
模型使用以下混合数据集进行预训练:
指令微调数据
模型在以下数据集上进行微调:
评估
可通过该排行榜查看多个LLM的评估结果,评估工具为llm-jp-eval (v1.3.0)。
此外,我们使用LLM-as-a-judge框架Japanese Vicuna QA Benchmark和Japanese MT Bench进行评估,详情请参阅技术博客(日文)。
风险与限制
当前发布的模型仍处于研发早期阶段,未经过充分调优以确保输出符合人类意图与安全考量。
问题反馈
llm-jp(at)nii.ac.jp
许可证
Apache License, Version 2.0
模型卡作者
按字母顺序排列
Namgi Han, Tatsuya Hiraoka, Hirokazu Kiyomaru, Takashi Kodama, Hiroshi Matsuda.