Llama-3.1-Swallow-70B-Instruct-v0.3开源大语言模型 - 提升日语能力兼顾英文交流

首页

Llama 3.1 Swallow 70B Instruct V0.3

由 tokyotech-llm 开发

Llama 3.1 Swallow是基于Meta Llama 3.1构建的大语言模型系列，通过持续预训练增强了日语能力，同时保留英文能力。

大型语言模型

Transformers

支持多种语言#日语增强 #多轮对话优化 #持续预训练

下载量 1,659

发布时间 : 12/25/2024

模型简介

Llama 3.1 Swallow是一系列大语言模型（8B、70B），通过在Meta Llama 3.1模型上进行持续预训练构建而成，增强了日语语言能力，同时保留英文能力。

模型特点

多语言能力

支持英语和日语，在保留英文能力的同时，增强了日语语言能力。

持续预训练

基于Meta Llama 3.1模型进行持续预训练，提升了模型性能。

指令调优

通过专门为日语构建的合成数据进行指令调优，使模型能更好地理解和响应用户指令。

模型能力

日语文本生成

英语文本生成

多轮对话

指令理解与响应

使用案例

对话系统

日语对话助手

用于构建日语对话助手，能够理解和生成自然的日语对话。

在日语MT-Bench测试中表现优异。

内容生成

日语故事生成

生成日语故事或内容，如示例中的东京红叶公园的故事。

🚀 Llama 3.1 Swallow - 基于Llama构建

Llama 3.1 Swallow是一系列大语言模型（8B、70B），通过在Meta Llama 3.1模型上进行持续预训练构建而成。该模型在保留英文语言能力的同时，增强了原Llama 3.1的日语语言能力。在持续预训练过程中，我们使用了大约2000亿个标记，这些标记是从一个大型日语网络语料库（Swallow语料库版本2）、日语和英语维基百科文章以及数学和编码内容等中采样得到的（详见基础模型的训练数据集部分）。指令调优模型（Instruct）是通过在专门为日语构建的合成数据上进行有监督微调（SFT）而构建的。查看Swallow模型索引部分，可找到其他模型变体。

注意：Llama-3.1-Swallow-70B-Instruct-v0.3是Llama-3.1-Swallow-70B-v0.1使用我们的指令数据集进行指令调优后的版本。

🚀 快速开始

本项目提供了Llama 3.1 Swallow大语言模型，下面将为你介绍如何快速使用该模型。

✨ 主要特性

多语言能力：支持英语和日语，在保留英文能力的同时，增强了日语语言能力。
持续预训练：基于Meta Llama 3.1模型进行持续预训练，提升了模型性能。
指令调优：通过专门为日语构建的合成数据进行指令调优，使模型能更好地理解和响应用户指令。

📦 安装指南

在使用Llama 3.1 Swallow模型之前，你需要安装vllm库，可以使用以下命令进行安装：

pip install vllm

💻 使用示例

基础用法

以下是一个使用Llama 3.1 Swallow模型生成文本的示例代码：

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=4,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512, stop="<|eot_id|>"
)


message = [
    {"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
    {
        "role": "user",
        "content": "東京の紅葉した公園で、東京タワーと高層ビルを背景に、空を舞うツバメと草地に佇むラマが出会う温かな物語を書いてください。",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

📚 详细文档

发布历史

2024年12月30日：发布Llama-3.1-Swallow-70B-Instruct-v0.3。
2024年12月23日：发布Llama-3.1-Swallow-8B-Instruct-v0.3。
2024年11月11日：发布Llama-3.1-Swallow-8B-v0.2和Llama-3.1-Swallow-8B-Instruct-v0.2。
2024年10月8日：发布Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1和Llama-3.1-Swallow-70B-Instruct-v0.1。

主要更新

本次发布增强了Llama 3.1 Swallow的对话能力。更新后的模型Llama-3.1-Swallow-70B-Instruct-v0.3能够根据用户指令和对话历史生成有用且详细的响应。在日语MT-Bench测试中，Llama-3.1-Swallow-70B-Instruct-v0.3比其前身Llama-3.1-Swallow-70B-Instruct-v0.1高出5.68分。

Swallow模型索引

模型	Llama-3.1-Swallow v0.1	Llama-3.1-Swallow-Instruct v0.1	Llama-3.1-Swallow v0.2	Llama-3.1-Swallow-Instruct v0.2	Llama-3.1-Swallow-Instruct v0.3
8B	链接	链接	链接	链接	链接
70B	链接	链接			链接

网站https://swallow-llm.github.io/提供了Swallow团队开发的大语言模型。

模型详情

属性	详情
模型类型	请参考Llama 3.1 MODEL_CARD获取模型架构的详细信息。
语言	日语、英语
库	Megatron-LM
分词器	请参考Llama 3.1博客获取分词器的详细信息。
联系方式	swallow[at]nlp.c.titech.ac.jp

模型性能

MT-Bench JA

模型	coding	extraction	humanities	math	reasoning	roleplay	stem	writing	JMTAvg
Llama 3 Youko 70B Instruct	0.6632	0.8387	0.8108	0.4655	0.7013	0.7778	0.7544	0.7662	0.7222
Llama-3.1-70B-Japanese-Instruct-2407	0.6267	0.7525	0.7938	0.5750	0.5590	0.7725	0.7240	0.7180	0.6902
Llama 3 heron brain 70B v0.3	0.3762	0.7892	0.7274	0.5589	0.5070	0.6662	0.6880	0.6996	0.6266
Llama 3 70B Instruct	0.5969	0.8410	0.7120	0.4481	0.4884	0.7117	0.6510	0.6900	0.6424
Llama 3.1 70B Instruct	0.5252	0.7846	0.7086	0.5063	0.6979	0.6888	0.6402	0.6653	0.6521
Llama 3.3 70B Instruct	0.5193	0.7750	0.7213	0.5228	0.6721	0.7407	0.6386	0.7043	0.6618
Llama 3.1 Swallow 70B Instruct v0.1	0.5676	0.7859	0.7490	0.5437	0.6383	0.6870	0.6121	0.6540	0.6547
Llama 3.1 Swallow 70B Instruct v0.3	0.6063	0.8052	0.8410	0.5591	0.6280	0.7774	0.6920	0.7832	0.7115
Qwen2-72B-Instruct	0.5699	0.7858	0.8222	0.5096	0.7032	0.7963	0.7728	0.8223	0.7228
Qwen2.5-72B-Instruct	0.7060	0.7866	0.8122	0.6968	0.6536	0.8301	0.8060	0.7841	0.7594
GPT-3.5 (gpt-3.5-turbo-0125)	0.6851	0.7641	0.7414	0.5522	0.5128	0.7104	0.6266	0.7361	0.6661
GPT-4o (gpt-4o-2024-05-13)	0.7296	0.8540	0.8646	0.6641	0.6661	0.8274	0.8184	0.8085	0.7791

日语任务

模型	JCom.	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20-en-ja	WMT20-ja-en	JMMLU	JHumanEval	Ja Avg
	4-shot	4-shot	4-shot	4-shot	1-shot	4-shot	4-shot	4-shot	5-shot	0-shot
	EM acc	Char-F1	Char-F1	Char-F1	ROUGE-2	EM acc	BLEU	BLEU	EM acc	pass@1
Llama 3 Youko 70B Instruct	0.9526	0.6252	0.5853	0.9215	0.1983	0.7400	0.2633	0.2245	0.7170	0.6098	0.5838
Llama-3.1-70B-Japanese-Instruct-2407	0.9562	0.6466	0.6602	0.9187	0.1564	0.7480	0.2901	0.2410	0.7227	0.6274	0.5967
Llama 3 heron brain 70B v0.3	0.9660	0.6643	0.6817	0.9221	0.2611	0.7720	0.3093	0.2578	0.7077	0.6079	0.6150
Llama 3 70B Instruct	0.9419	0.6114	0.5506	0.9164	0.1912	0.7200	0.2708	0.2350	0.6789	0.6610	0.5777
Llama 3.1 70B Instruct	0.9482	0.6246	0.5781	0.9201	0.1772	0.7440	0.2805	0.2472	0.7323	0.6933	0.5945
Llama 3.3 70B Instruct	0.9410	0.6399	0.5728	0.8927	0.1787	0.7840	0.2779	0.2429	0.7340	0.7439	0.6008
Llama 3.1 Swallow 70B Instruct v0.1	0.9598	0.6192	0.6605	0.9235	0.1938	0.7760	0.3123	0.2593	0.7117	0.4713	0.5887
Llama 3.1 Swallow 70B Instruct v0.3	0.9651	0.6322	0.6532	0.9107	0.1951	0.7520	0.3053	0.2580	0.6896	0.6006	0.5962
Qwen2-72B-Instruct	0.9634	0.6268	0.5418	0.9210	0.1644	0.7840	0.2592	0.2327	0.7713	0.6909	0.5955
Qwen2.5-72B-Instruct	0.9696	0.5699	0.5811	0.7381	0.1706	0.8360	0.2269	0.2179	0.7899	0.6256	0.5726

英语任务

模型	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	BBH	HumanEval	En Avg
	4-shot	4-shot	4-shot	4-shot	4-shot	5-shot	4-shot	3-shot	0-shot
	Acc	EM acc	Acc	EM acc	Acc	Acc	EM acc	CoT EM Acc	pass@1
Llama 3 Youko 70B Instruct	0.4500	0.7973	0.6863	0.3914	0.9153	0.8055	0.8923	0.7814	0.6598	0.7088
Llama-3.1-70B-Japanese-Instruct-2407	0.4220	0.8104	0.6481	0.3744	0.9170	0.8071	0.8893	0.8228	0.7463	0.7153
Llama 3 heron brain 70B v0.3	0.4460	0.8107	0.6682	0.4085	0.9174	0.7898	0.8772	0.7586	0.6713	0.7053
Llama 3 70B Instruct	0.4400	0.7999	0.6552	0.4024	0.9127	0.7992	0.9052	0.8326	0.7555	0.7225
Llama 3.1 70B Instruct	0.4300	0.8212	0.6621	0.3921	0.9157	0.8213	0.8764	0.8390	0.7915	0.7277
Llama 3.3 70B Instruct	0.4260	0.8172	0.6674	0.3933	0.9174	0.8240	0.8901	0.8529	0.8341	0.7358
Llama 3.1 Swallow 70B Instruct v0.1	0.4520	0.8148	0.6834	0.4012	0.9157	0.7855	0.8886	0.8486	0.5823	0.7080
Llama 3.1 Swallow 70B Instruct v0.3	0.4540	0.8245	0.6915	0.4082	0.9187	0.7770	0.8726	0.8148	0.6378	0.7110
Qwen2-72B-Instruct	0.4360	0.7588	0.6857	0.3913	0.9110	0.8391	0.8499	0.2436	0.6939	0.6455
Qwen2.5-72B-Instruct	0.4540	0.6764	0.7064	0.3550	0.8895	0.8478	0.9113	0.4027	0.6165	0.6511

评估基准

MT-Bench JA

我们使用日语MT-Bench来评估多轮对话能力，设置如下：

实现方式：FastChat [Zheng+, 2023]（提交编号 #e86e70d0）
问题：Nejumi LLM-Leaderboard NEO, mtbench_ja_question_v3
参考答案：Nejumi LLM-Leaderboard NEO, mtbench_ja_referenceanswer_v1
评判提示：Nejumi LLM-Leaderboard NEO, mtbench_ja_prompt_v1
评判模型：gpt-4-1106-preview
评分方式：绝对比例归一化到0 - 1范围，五次运行取平均值。

日语评估基准

我们使用了llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness（提交编号 #9b42d41）和Code Generation LM Evaluation Harness（提交编号 #0261c52）。详情如下：

多项选择题回答（JCommonsenseQA [Kurihara et al., 2022]）
开放式问题回答（JEMHopQA [Ishii et al., 2024]）
开放式问题回答（NIILC [関根, 2003]）
机器阅读理解（JSQuAD [Kurihara et al., 2022]）
自动摘要（XL-Sum [Hasan et al., 2021]）
机器翻译（WMT2020 ja-en [Barrault et al., 2020]）
机器翻译（WMT2020 en-ja [Barrault et al., 2020]）
数学推理（MGSM [Shi et al., 2023]）
学术考试（JMMLU [尹ら, 2024]）
代码生成（JHumanEval [佐藤ら, 2024]）

英语评估基准

我们使用了Language Model Evaluation Harness（v.0.4.2）和Code Generation LM Evaluation Harness（提交编号 #0261c52）。详情如下：

多项选择题回答（OpenBookQA [Mihaylov et al., 2018]）
开放式问题回答（TriviaQA [Joshi et al., 2017]）
机器阅读理解（SQuAD2 [Rajpurkar et al., 2018]）
常识推理（XWINO [Tikhonov and Ryabinin, 2021]）
自然语言推理（HellaSwag [Zellers et al., 2019]）
数学推理（GSM8K [Cobbe et al., 2021]）
推理（BBH (BIG-Bench-Hard) [Suzgun et al., 2023]）
学术考试（MMLU [Hendrycks et al., 2021]）
代码生成（HumanEval [Chen et al., 2021]）

训练数据集

指令调优

以下数据集用于指令调优：

Gemma-2-LMSYS-Chat-1M-Synth
- 从lmsys-chat-1m合成和派生的多轮日语指令数据集 [Zhang+, ICLR24]。
- 第一轮用户指令通过DeepL（机器翻译）翻译成日语，助手响应使用gemma-2-27b-it生成。同一模型，即gemma-2-27b-it作为评判模型进行拒绝采样（n = 6）。
- 第二轮用户指令和响应使用gemma-2-27b-it合成。同一模型对第二轮响应的质量进行评分，范围为1 - 10。得分低于9的第二轮响应及其对应的指令将被拒绝。
- 包含个人身份信息（PII）和基于模板的用户指令的对话被移除。重复的指令被移除。
Swallow-Magpie-Ultra-v0.1
- filtered-magpie-ultra-en数据集的日语变体，由gemma-2-27b-it翻译成日语。
Swallow-Gemma-Magpie-v0.1
- 一个全新的日语合成指令调优数据集，由gemma-2-27b-it生成。用户指令是针对每个主题的特定提示创建的，助手响应是为这些指令生成的。
- 对话通过启发式方法进行质量和长度过滤。然后，使用gemma-2-27b-it对每个对话的质量进行评分，范围为1 - 10。得分 <= 7的对话被拒绝。

风险与限制

此处发布的模型仍处于我们研发的早期阶段，尚未进行调整以确保输出符合人类意图和安全考虑。

致谢

我们感谢Meta Research以宽松的开放许可证发布Llama 3.1。

我们获得了以下各种支持：

AIST项目：“物理领域生成式AI基础模型的研究与开发”
NEDO项目：“基于熟练人员视角的设计风险评估工作中支持判断的人工智能应用技术开发”（JPNP18002），属于“下一代人工智能和机器人核心集成技术开发”项目
MEXT项目：“形成确保生成式AI模型透明度和可靠性的研发中心”
AIST计划：大型生成式AI开发支持计划

许可证

META LLAMA 3.1社区许可证和Gemma使用条款

作者

以下是团队成员：

引用方式

如果您认为我们的工作有帮助，请随时引用以下论文：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@misc{ma:arxiv2025,
      title={Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models}, 
      author={Youmi Ma and Sakae Mizuki and Kazuki Fujii and Taishi Nakamura and Masanari Ohi and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Koki Maeda and Kakeru Hattori and Takumi Okamoto and Shigeki Ishida and Rio Yokota and Hiroya Takamura and Naoaki Okazaki},
      year={2025},
      eprint={2503.23714},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.23714}, 
}

参考文献

@misc{dubey2024llama3herdmodels,
      title={The Llama 3 Herd of Models}, 
      author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
      year={2024},
      eprint={2407.21783},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.21783}, 
}