🚀 llm-jp-3-1.8b-instruct
本仓库提供了由国立情报学研究所的大语言模型研发中心开发的大语言模型。
🚀 快速开始
本项目提供了大语言模型,下面为你介绍使用所需的库版本及使用示例。
✨ 主要特性
- 支持多种编程语言,包括C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala和TypeScript。
- 提供了多种模型变体,可满足不同需求。
- 经过多语言数据集的预训练和微调,具备较好的语言处理能力。
📦 安装指南
使用该模型需要安装以下库及其对应版本:
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-1.8b-instruct")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-1.8b-instruct", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
{"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
{"role": "user", "content": "自然言語処理とは何か"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
基于Transformer的语言模型 |
总所见令牌数 |
2.1T |
参数 |
层数 |
隐藏层大小 |
头数 |
上下文长度 |
嵌入参数 |
非嵌入参数 |
1.8b |
24 |
2048 |
16 |
4096 |
407,896,064 |
1,459,718,144 |
3.7b |
28 |
3072 |
24 |
4096 |
611,844,096 |
3,171,068,928 |
13b |
40 |
5120 |
40 |
4096 |
1,019,740,160 |
12,688,184,320 |
分词器
该模型的分词器基于huggingface/tokenizers的Unigram字节回退模型。词汇表条目从llm-jp-tokenizer v3.0
转换而来。有关词汇表构建过程的详细信息,请参考llm-jp-tokenizer
的README.md(纯SentencePiece训练无法重现我们的词汇表)。
数据集
预训练
模型使用以下数据集的混合进行了预训练:
指令微调
模型在以下数据集上进行了微调:
评估
llm-jp-eval (v1.3.1)
使用开发集的100个示例对模型进行了评估:
模型名称 |
平均值 |
EL |
FA |
HE |
MC |
MR |
MT |
NLI |
QA |
RC |
llm-jp-3-1.8b |
0.3767 |
0.3725 |
0.1948 |
0.2350 |
0.2500 |
0.0900 |
0.7730 |
0.3080 |
0.4629 |
0.7040 |
llm-jp-3-1.8b-instruct |
0.4596 |
0.4280 |
0.1987 |
0.3250 |
0.3300 |
0.4200 |
0.7900 |
0.3520 |
0.4698 |
0.8224 |
llm-jp-3-3.7b |
0.4231 |
0.3812 |
0.2440 |
0.2200 |
0.1900 |
0.3600 |
0.7947 |
0.3800 |
0.4688 |
0.7694 |
llm-jp-3-3.7b-instruct |
0.5188 |
0.4191 |
0.2504 |
0.3400 |
0.5000 |
0.5800 |
0.8166 |
0.4500 |
0.4881 |
0.8247 |
llm-jp-3-13b |
0.5802 |
0.5570 |
0.2593 |
0.4600 |
0.7000 |
0.6300 |
0.8292 |
0.3460 |
0.5937 |
0.8469 |
llm-jp-3-13b-instruct |
0.6168 |
0.5408 |
0.2757 |
0.4950 |
0.9200 |
0.7100 |
0.8317 |
0.4640 |
0.4642 |
0.8500 |
日语MT Bench
使用gpt-4-0613
对模型进行了评估,详情请见代码:
🔧 技术细节
模型处于研发的早期阶段,尚未进行调整以确保输出符合人类意图和安全考量。
📄 许可证
本项目采用Apache许可证2.0版。
模型卡片作者
姓名按字母顺序排列。
Hirokazu Kiyomaru和Takashi Kodama。
问题反馈
如有问题,请发送邮件至llm-jp(at)nii.ac.jp。