许可证:apache-2.0
支持语言:
编程语言支持:
- C
- C++
- C#
- Go
- Java
- JavaScript
- Lua
- PHP
- Python
- Ruby
- Rust
- Scala
- TypeScript
任务标签:文本生成
库名称:transformers
推理支持:否
llm-jp-3-8x13b-instruct3
LLM-jp-3是由国立信息学研究所大型语言模型研发中心开发的大语言模型系列。本仓库提供llm-jp-3-8x13b-instruct3模型。关于不同参数规模的LLM-jp-3模型概览,请参考:
模型格式:Hugging Face Transformers
所需库及版本
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
使用示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
{"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
{"role": "user", "content": "自然言語処理とは何か"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
模型详情
- 模型类型:基于Transformer的语言模型
- 总训练token数:2.1T tokens
参数量 |
层数 |
隐藏层维度 |
注意力头数 |
路由专家数 |
激活专家数 |
上下文长度 |
嵌入参数量 |
非嵌入参数量 |
激活参数量 |
总参数量 |
8x1.8b |
24 |
2048 |
16 |
8 |
2 |
4096 |
407,498,752 |
8,858,863,616 |
2,924,279,808 |
9,266,362,368 |
8x13b |
40 |
5120 |
40 |
8 |
2 |
4096 |
1,018,746,880 |
72,144,081,920 |
22,200,806,400 |
73,162,828,800 |
如需了解LLM-jp-3 MoE系列的预训练详情,请参阅技术博客。
分词器
本模型分词器基于huggingface/tokenizers的Unigram字节回退模型,词表由llm-jp-tokenizer v3.0
转换而来。词表构建方法详见llm-jp-tokenizer的README(纯SentencePiece训练无法复现我们的词表)。
训练数据
预训练数据
模型使用以下混合数据集进行预训练:
后训练数据
我们通过监督微调和直接偏好优化对预训练模型进行对齐。
监督微调数据
直接偏好优化数据
评估结果
llm-jp-eval (v1.4.1)
我们使用开发集的100个样本进行评估(跳过代码生成CG任务)。
模型名称 |
平均分 |
实体链接 |
事实核查 |
文本蕴涵 |
多选题 |
机器阅读 |
机器翻译 |
自然语言推理 |
问答 |
阅读理解 |
摘要生成 |
7.2b基础版 |
0.455 |
0.400 |
0.266 |
0.350 |
0.547 |
0.430 |
0.809 |
0.362 |
0.545 |
0.814 |
0.028 |
7.2b指令版 |
0.514 |
0.447 |
0.245 |
0.435 |
0.693 |
0.510 |
0.826 |
0.588 |
0.497 |
0.838 |
0.059 |
172b基础版 |
0.543 |
0.408 |
0.266 |
0.515 |
0.763 |
0.670 |
0.823 |
0.574 |
0.569 |
0.829 |
0.015 |
172b指令版 |
0.613 |
0.517 |
0.271 |
0.570 |
0.873 |
0.730 |
0.844 |
0.728 |
0.601 |
0.883 |
0.112 |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
8x1.8b基础版 |
0.454 |
0.387 |
0.241 |
0.265 |
0.530 |
0.510 |
0.810 |
0.476 |
0.537 |
0.755 |
0.026 |
8x1.8b指令v2版 |
0.513 |
0.448 |
0.230 |
0.405 |
0.643 |
0.560 |
0.815 |
0.566 |
0.561 |
0.837 |
0.066 |
8x1.8b指令v3版 |
0.515 |
0.452 |
0.227 |
0.425 |
0.683 |
0.540 |
0.821 |
0.558 |
0.545 |
0.819 |
0.075 |
8x13b基础版 |
0.587 |
0.545 |
0.291 |
0.495 |
0.803 |
0.720 |
0.838 |
0.578 |
0.646 |
0.854 |
0.097 |
8x13b指令v2版 |
0.626 |
0.552 |
0.289 |
0.525 |
0.897 |
0.750 |
0.836 |
0.682 |
0.637 |
0.907 |
0.182 |
8x13b指令v3版 |
0.625 |
0.548 |
0.285 |
0.525 |
0.907 |
0.760 |
0.839 |
0.688 |
0.627 |
0.904 |
0.164 |
日语MT Bench
使用gpt-4o-2024-08-06
评估,分数为五轮推理评估的平均值(详见评测代码)。
模型名称 |
平均分 |
编程 |
信息抽取 |
人文 |
数学 |
推理 |
角色扮演 |
STEM |
写作 |
7.2b指令版 |
5.79 |
3.46 |
5.94 |
8.15 |
3.95 |
4.46 |
7.51 |
6.23 |
6.66 |
172b指令版 |
6.36 |
4.24 |
6.66 |
8.11 |
4.58 |
5.74 |
7.44 |
6.76 |
7.36 |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
8x1.8b指令v2版 |
5.47 |
3.47 |
4.90 |
7.78 |
3.51 |
4.38 |
6.84 |
6.35 |
6.54 |
8x1.8b指令v3版 |
5.52 |
3.60 |
5.23 |
7.81 |
3.87 |
4.53 |
6.40 |
5.98 |
6.72 |
8x13b指令v2版 |
6.62 |
4.50 |
6.53 |
8.56 |
5.30 |
6.03 |
7.86 |
7.10 |
7.12 |
8x13b指令v3版 |
6.58 |
4.90 |
6.41 |
8.32 |
5.37 |
5.20 |
7.75 |
7.24 |
7.48 |
AnswerCarefully安全评估
基于AnswerCarefully测试集的LLM-as-a-Judge安全评估(方法详见论文),使用gpt-4-0613
进行五轮评估。
模型名称 |
接受率(%,↑) |
违规率(%,↓) |
7.2b指令版 |
92.86 |
2.44 |
172b指令版 |
95.48 |
1.67 |
--- |
--- |
--- |
8x1.8b指令v2版 |
86.13 |
7.56 |
8x1.8b指令v3版 |
92.20 |
2.20 |
8x13b指令v2版 |
88.63 |
6.01 |
8x13b指令v3版 |
94.35 |
1.55 |
风险与限制
当前发布的模型处于研发早期阶段,尚未充分优化以确保输出符合人类意图与安全要求。
联系邮箱
llm-jp(at)nii.ac.jp
许可证
Apache License 2.0
引用方式
若您觉得我们的工作有帮助,请引用论文:
@inproceedings{
nakamura2025dropupcycling,
title={Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization},
author={Taishi Nakamura and Takuya Akiba and Kazuki Fujii and Yusuke Oda and Rio Yokota and Jun Suzuki},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025},
url={https://openreview.net/forum?id=gx1wHnf5Vp}
}
模型卡作者
按姓氏字母排序
清丸浩一、儿玉隆、中村大志