llm - jp - 3 - 3.7b - instruct3开源大语言模型 - 免费支持日语和英语任务处理

首页

Llm Jp 3 3.7b Instruct3

由 llm-jp 开发

由日本国立情报学研究所开发的大语言模型，专注于日语和英语任务，参数规模为3.7B。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #日语大模型 #多轮对话优化 #指令微调

下载量 986

发布时间 : 1/31/2025

模型简介

LLM-jp-3系列模型是基于Transformer架构的大语言模型，支持日语和英语的文本生成和理解任务。

模型特点

多语言支持

专注于日语和英语任务，适用于多语言场景。

指令微调

经过监督微调和直接偏好优化，能够更好地理解和执行指令。

大规模预训练

在超过2.1T词元的数据集上进行预训练，具备强大的语言理解能力。

模型能力

文本生成

指令理解

多轮对话

代码生成

使用案例

教育

语言学习助手

帮助学生理解日语和英语的语法和用法。

客服

自动客服系统

处理日语和英语的客户咨询。

🚀 llm-jp-3-3.7b-instruct3

LLM-jp-3 是由国立情报学研究所的大语言模型研发中心开发的一系列大语言模型。

本仓库提供了 llm-jp-3-3.7b-instruct3 模型。如需了解不同参数规模的 LLM-jp-3 模型概述，请参考：

检查点格式：Hugging Face Transformers

🚀 快速开始

所需库及其版本

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-3.7b-instruct3")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-3.7b-instruct3", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "自然言語処理とは何か"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

📚 详细文档

模型详情

属性	详情
模型类型	基于 Transformer 的语言模型
总所见词元	2.1T 词元

参数	层数	隐藏层大小	头数	上下文长度	嵌入参数	非嵌入参数
150M	12	512	8	4096	101,874,688	50,344,448
440M	16	1024	8	4096	203,749,376	243,303,424
980M	20	1536	8	4096	305,624,064	684,258,816
1.8b	24	2048	16	4096	407,498,752	1,459,718,144
3.7b	28	3072	24	4096	611,248,128	3,171,068,928
7.2b	32	4096	32	4096	814,997,504	6,476,271,616
13b	40	5120	40	4096	1,018,746,880	12,688,184,320
172b	96	12288	96	4096	2,444,992,512	169,947,181,056

分词器

该模型的分词器基于 huggingface/tokenizers 的 Unigram 字节回退模型。词汇表条目由 llm-jp-tokenizer v3.0 转换而来。有关词汇表构建过程的详细信息，请参考 llm-jp-tokenizer 的 README.md（纯 SentencePiece 训练无法复现我们的词汇表）。

数据集

预训练

模型使用以下数据集的混合进行了预训练。

语言	数据集	词元数
日语	维基百科	2.6B
	Common Crawl	762.8B
	WARP/PDF	237.3B
	WARP/HTML	2.7B
	Kaken	1.8B
英语	维基百科	4.7B
	Dolma/CC-head	608.5B
	Dolma/C4	181.6B
	Dolma/Reddit	83.1B
	Dolma/PeS2o	62.9B
	Dolma/Gutenberg	5.5B
	Dolma/Wiki	3.9B
代码	The Stack	114.1B
中文	维基百科	0.8B
韩语	维基百科	0.3B

后训练

我们使用监督微调对预训练检查点进行了微调，并通过直接偏好优化进一步对齐。

监督微调

用于监督微调的数据集如下：

语言	数据集	描述
日语	ichikara-instruction-004-002	手动构建的指令数据集。
	AnswerCarefully (ver2.0)	专注于大语言模型安全性的手动构建指令数据集。
	ichikara-instruction-format	ichikara-instruction 数据集的一个小子集，对输出格式有一些限制。
	AutoMultiTurnByCalm3-22B	合成指令数据集。
	ramdom-to-fixed-multiturn-Calm3	合成指令数据集。
	wizardlm8x22b-logical-math-coding-sft-ja	合成指令数据集。
	magpie-sft-v1.0	我们创建的合成指令数据集。
英语	Daring-Anteater	-
	FLAN	-
日语和英语	Synthetic-JP-EN-Coding-Dataset	合成指令数据集。

直接偏好优化

用于监督微调的数据集如下：

语言	数据集	描述
日语	aya-ja-evol-inst	专注于大语言模型有用性的合成偏好数据集。
	ac-self-inst	专注于大语言模型安全性的合成偏好数据集。