llm-jp-3-13b开源大语言模型 - 支持日英双语交流，免费使用超便利

首页

Llm Jp 3 13b

由 llm-jp 开发

由日本国立信息学研究所开发的大语言模型，支持日语和英语，基于Transformer架构，参数量130亿

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #日语大语言模型 #多任务文本生成 #科研数据集训练

下载量 1,190

发布时间 : 9/23/2024

模型简介

这是一个基于Transformer架构的大语言模型，专门针对日语和英语优化，可用于文本生成等自然语言处理任务

模型特点

多语言支持

专门针对日语和英语优化，在两种语言上都有良好表现

大规模预训练

使用超过2.1万亿token的混合数据集进行预训练

多种规模可选

提供从18亿到172亿参数的不同规模模型变体

指令调优版本

提供经过指令微调的版本，更适合对话和指令跟随任务

模型能力

日语文本生成

英语文本生成

代码生成

问答系统

阅读理解

使用案例

自然语言处理

日语问答系统

构建针对日语用户的智能问答系统

在llm-jp-eval评估中问答任务得分0.5937

机器翻译

用于日语和英语之间的机器翻译

在llm-jp-eval评估中机器翻译任务得分0.8292

教育

语言学习助手

帮助学习者练习日语和英语

🚀 llm-jp-3-13b

本仓库提供了由国立情报学研究所的大语言模型研发中心开发的大语言模型。

该开发工作得到了GENIAC的部分支持。

🚀 快速开始

检查点格式

Hugging Face Transformers

所需库及其版本

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

✨ 主要特性

本项目提供了一系列不同规模的大语言模型变体，可用于文本生成任务。这些模型基于Transformer架构，在多语言数据集上进行了预训练和指令微调，以适应不同的应用场景。

📦 安装指南

确保你已经安装了以下所需库及其对应版本：

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

你可以使用以下命令进行安装：

pip install torch>=2.3.0 transformers>=4.40.1 tokenizers>=0.19.1 accelerate>=0.29.3 flash-attn>=2.5.8

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-13b")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-13b", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

📚 详细文档

模型变体

模型变体
llm-jp-3-1.8b
llm-jp-3-1.8b-instruct
llm-jp-3-3.7b
llm-jp-3-3.7b-instruct
llm-jp-3-13b
llm-jp-3-13b-instruct
llm-jp-3-172b-beta1
llm-jp-3-172b-beta1-instruct

模型详情

属性	详情
模型类型	基于Transformer的语言模型
总可见令牌数	2.1T

参数	层数	隐藏层大小	头数	上下文长度	嵌入参数	非嵌入参数
1.8b	24	2048	16	4096	407,896,064	1,459,718,144
3.7b	28	3072	24	4096	611,844,096	3,171,068,928
13b	40	5120	40	4096	1,019,740,160	12,688,184,320

分词器

该模型的分词器基于huggingface/tokenizers的Unigram字节回退模型。词汇表条目是从llm-jp-tokenizer v3.0转换而来的。有关词汇表构建过程的详细信息，请参考llm-jp-tokenizer的README.md（纯SentencePiece训练无法重现我们的词汇表）。

数据集

预训练

模型使用以下数据集的混合进行了预训练：

语言	数据集	令牌数
日语	Wikipedia	2.6B
	Common Crawl	762.8B
	WARP/PDF	237.3B
	WARP/HTML	2.7B
	Kaken	1.8B
英语	Wikipedia	4.7B
	Dolma/CC-head	608.5B
	Dolma/C4	181.6B
	Dolma/Reddit	83.1B
	Dolma/PeS2o	62.9B
	Dolma/Gutenberg	5.5B
	Dolma/Wiki	3.9B
代码	The Stack	114.1B
中文	Wikipedia	0.8B
韩语	Wikipedia	0.3B

指令微调

模型在以下数据集上进行了微调：

语言	数据集	描述
日语	ichikara-instruction-004-002	手动构建的指令数据集
	answer-carefully-002	专注于大语言模型安全性的手动构建指令数据集
	ichikara-instruction-format	从ichikara-instruction编辑而来的少量指令数据集，对输出格式有一些限制
	AutoMultiTurnByCalm3-22B	合成指令数据集
	ramdom-to-fixed-multiturn-Calm3	合成指令数据集
	wizardlm8x22b-logical-math-coding-sft_additional-ja	合成指令数据集
	Synthetic-JP-EN-Coding-Dataset-567k	合成指令数据集，使用了抽样数据
英语	FLAN	使用了抽样数据

评估

llm-jp-eval (v1.3.1)

使用开发集的100个示例对模型进行了评估：

模型名称	平均值	EL	FA	HE	MC	MR	MT	NLI	QA	RC
llm-jp-3-1.8b	0.3767	0.3725	0.1948	0.2350	0.2500	0.0900	0.7730	0.3080	0.4629	0.7040
llm-jp-3-1.8b-instruct	0.4596	0.4280	0.1987	0.3250	0.3300	0.4200	0.7900	0.3520	0.4698	0.8224
llm-jp-3-3.7b	0.4231	0.3812	0.2440	0.2200	0.1900	0.3600	0.7947	0.3800	0.4688	0.7694
llm-jp-3-3.7b-instruct	0.5188	0.4191	0.2504	0.3400	0.5000	0.5800	0.8166	0.4500	0.4881	0.8247
llm-jp-3-13b	0.5802	0.5570	0.2593	0.4600	0.7000	0.6300	0.8292	0.3460	0.5937	0.8469
llm-jp-3-13b-instruct	0.6168	0.5408	0.2757	0.4950	0.9200	0.7100	0.8317	0.4640	0.4642	0.8500

日语MT Bench

使用gpt-4-0613对模型进行了评估，详情请见代码：

模型名称	平均值	编码	提取	人文	数学	推理	角色扮演	理工科	写作
llm-jp-3-1.8b-instruct	4.93	1.50	4.70	7.80	1.55	2.60	7.80	6.10	7.40
llm-jp-3-3.7b-instruct	5.50	1.95	4.05	8.25	2.25	4.00	8.80	7.25	7.45
llm-jp-3-13b-instruct	6.47	3.15	7.05	9.15	3.75	5.40	8.30	7.50	7.45