Gemma-2-Llama-Swallow-27b-it-v0.1开源大模型 - 增强日语能力，保留英语能力优势

首页

Gemma 2 Llama Swallow 27b It V0.1

由 tokyotech-llm 开发

基于Gemma-2架构的日语增强大语言模型，通过持续预训练显著提升日语能力，同时保留原版英语能力

大型语言模型

Transformers

支持多种语言#日语增强 #多轮对话 #双语处理

下载量 27

发布时间 : 4/24/2025

模型简介

该模型是对Google Gemma-2进行持续预训练构建的系列模型之一，特别针对日语处理能力进行了优化，适用于日英双语文本生成和理解任务

模型特点

双语能力增强

在保留原版Gemma 2英语能力的同时，显著增强了日语处理能力

大规模预训练

使用约2000亿tokens的混合语料进行持续预训练，包含专业日语语料

指令微调优化

采用针对日语特别构建的合成数据进行监督式微调(SFT)

模型能力

日语文本生成

英语文本生成

日英双语理解

多轮对话处理

代码生成

使用案例

语言服务

日语聊天助手

构建流畅自然的日语对话系统

在日语MT-Bench评测中表现优异

日英翻译

实现高质量的日英互译

在WMT20评测基准上有竞争力表现

教育

日语学习辅助

帮助非日语母语者学习日语

🚀 Gemma-2-Llama-Swallow

Gemma-2-Llama-Swallow系列模型是在gemma-2模型的基础上进行持续预训练而构建的。Gemma 2 Swallow在保留英文能力的同时，增强了原版Gemma 2的日语能力。我们使用了大约2000亿个标记进行持续预训练，这些标记是从一个大型日语网络语料库（Swallow语料库版本2）、日语和英文维基百科文章以及数学和编码内容等中采样得到的（详见基础模型的训练数据集部分）。指令微调模型（it）是通过在专门为日语构建的合成数据上进行有监督微调（SFT）而构建的。请参阅Swallow模型索引部分以查找其他模型变体。该模型基于Gemma和Llama构建。

🚀 快速开始

你可以按照以下步骤使用Gemma-2-Llama-Swallow模型：

pip install vllm

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=1,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512,
)


message = [
    {
        "role": "user",
        "content": "Êó•Êú¨„ÅÆÊò•„Åã„ÇâÂ§è„ÅÆÁßª„ÇäÂ§â„Çè„Çä„Å´„Å§„ÅÑ„Å¶Êïô„Åà„Å¶„Åè„Å†„Åï„ÅÑ",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

✨ 主要特性

多语言能力：Gemma-2-Llama-Swallow系列模型在保留英文能力的同时，显著增强了日语能力，能够处理多种语言的任务。
持续预训练：通过在大规模的日语网络语料库、维基百科文章以及数学和编码内容等数据上进行持续预训练，模型的性能得到了进一步提升。
指令微调：使用专门为日语构建的合成数据进行有监督微调，使模型在多轮对话和特定任务上表现更出色。

📦 安装指南

你可以使用以下命令安装所需的依赖库：

pip install vllm

💻 使用示例

基础用法

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=1,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512,
)


message = [
    {
        "role": "user",
        "content": "Êó•Êú¨„ÅÆÊò•„Åã„ÇâÂ§è„ÅÆÁßª„ÇäÂ§â„Çè„Çä„Å´„Å§„ÅÑ„Å¶Êïô„Åà„Å¶„Åè„Å†„Åï„ÅÑ",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

📚 详细文档

模型详情

属性	详情
模型类型	请参考Gemma 2论文了解模型架构的详细信息。
支持语言	日语、英语
库	maxtext
分词器	请参考Gemma 2论文了解分词器的详细信息。
联系方式	swallow[at]nlp.c.titech.ac.jp

发布历史

2025年5月19日：发布了Gemma-2-Llama-Swallow-2b-pt-v0.1、Gemma-2-Llama-Swallow-9b-pt-v0.1、Gemma-2-Llama-Swallow-27b-pt-v0.1、Gemma-2-Llama-Swallow-2b-it-v0.1、Gemma-2-Llama-Swallow-9b-it-v0.1和Gemma-2-Llama-Swallow-27b-it-v0.1。

Swallow模型索引

模型	gemma-2-swallow v0.1	gemma-2-swallow-it v0.1
2B	ü§ó HuggingFace	ü§ó HuggingFace
9B	ü§ó HuggingFace	ü§ó HuggingFace
27B	ü§ó HuggingFace	ü§ó HuggingFace

该网站https://swallow-llm.github.io/提供了Swallow团队开发的大语言模型。

模型性能

MT-Bench JA

模型	编码	提取	人文	数学	推理	角色扮演	STEM	写作	JMT平均
google/gemma-3-1b-it	0.379	0.497	0.680	0.385	0.322	0.628	0.540	0.651	0.510
Qwen/Qwen2.5-1.5B-Instruct	0.408	0.513	0.456	0.527	0.352	0.473	0.406	0.469	0.450
google/gemma-2-2b-it	0.454	0.587	0.693	0.524	0.445	0.654	0.567	0.630	0.569
rinna/gemma-2-baku-2b-it	0.470	0.625	0.810	0.414	0.382	0.713	0.609	0.697	0.590
google/gemma-2-2b-jpn-it	0.467	0.488	0.741	0.379	0.406	0.660	0.589	0.672	0.550
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1	0.438	0.533	0.781	0.557	0.404	0.706	0.674	0.682	0.597
Qwen/Qwen2.5-3B-Instruct	0.567	0.647	0.597	0.665	0.457	0.649	0.526	0.637	0.593
google/gemma-3-4b-it	0.603	0.724	0.798	0.767	0.498	0.803	0.775	0.822	0.724
Qwen/Qwen2.5-7B-Instruct	0.599	0.741	0.719	0.637	0.541	0.744	0.624	0.713	0.665
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3	0.562	0.756	0.869	0.610	0.512	0.783	0.748	0.803	0.705
google/gemma-2-9b-it	0.652	0.765	0.857	0.614	0.673	0.811	0.713	0.800	0.736
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	0.592	0.796	0.872	0.742	0.638	0.802	0.745	0.803	0.749
google/gemma-3-12b-it	0.807	0.814	0.871	0.886	0.623	0.847	0.858	0.863	0.821
google/gemma-2-27b-it	0.727	0.809	0.874	0.719	0.639	0.810	0.740	0.826	0.768
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	0.618	0.839	0.873	0.741	0.608	0.814	0.739	0.836	0.759
google/gemma-3-27b-it	0.804	0.927	0.879	0.876	0.774	0.846	0.848	0.882	0.855
Qwen/Qwen2.5-32B-Instruct	0.724	0.885	0.816	0.918	0.726	0.834	0.763	0.808	0.809

日语任务

模型	JCom.	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20-en-ja	WMT20-ja-en	JMMLU	JHumanEval	Ja平均
	4-shot	4-shot	4-shot	4-shot	1-shot	4-shot	4-shot	4-shot	5-shot	0-shot
	EM准确率	字符F1	字符F1	字符F1	ROUGE-2	EM准确率	BLEU	BLEU	EM准确率	pass@1
google/gemma-3-1b-it	0.526	0.330	0.237	0.700	0.113	0.088	0.166	0.115	0.332	0.245	0.285
Qwen/Qwen2.5-1.5B-Instruct	0.812	0.276	0.241	0.847	0.128	0.292	0.147	0.119	0.447	0.242	0.355
google/gemma-2-2b-it	0.862	0.348	0.315	0.879	0.117	0.252	0.207	0.183	0.437	0.321	0.392
rinna/gemma-2-baku-2b-it	0.855	0.228	0.390	0.877	0.115	0.172	0.255	0.190	0.415	0.165	0.366
google/gemma-2-2b-jpn-it	0.845	0.321	0.291	0.877	0.131	0.192	0.204	0.180	0.418	0.311	0.377
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1	0.862	0.367	0.483	0.881	0.145	0.288	0.258	0.200	0.485	0.267	0.424
Qwen/Qwen2.5-3B-Instruct	0.876	0.304	0.293	0.866	0.144	0.228	0.198	0.168	0.536	0.474	0.409
google/gemma-3-4b-it	0.818	0.444	0.404	0.801	0.134	0.332	0.217	0.169	0.477	0.365	0.416
Qwen/Qwen2.5-7B-Instruct	0.915	0.429	0.391	0.891	0.168	0.632	0.211	0.192	0.623	0.532	0.498
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3	0.924	0.528	0.583	0.896	0.191	0.532	0.281	0.229	0.544	0.394	0.510
google/gemma-2-9b-it	0.931	0.532	0.527	0.876	0.149	0.636	0.273	0.239	0.623	0.559	0.535
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	0.946	0.606	0.643	0.852	0.170	0.624	0.296	0.238	0.639	0.446	0.546
google/gemma-3-12b-it	0.935	0.566	0.542	0.808	0.148	0.724	0.289	0.239	0.645	0.637	0.553
google/gemma-2-27b-it	0.956	0.541	0.576	0.883	0.166	0.704	0.290	0.249	0.670	0.638	0.567
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	0.969	0.654	0.658	0.891	0.194	0.764	0.316	0.258	0.686	0.635	0.602
google/gemma-3-27b-it	0.946	0.592	0.584	0.867	0.142	0.764	0.307	0.253	0.716	0.736	0.591
Qwen/Qwen2.5-32B-Instruct	0.959	0.567	0.497	0.903	0.169	0.780	0.228	0.195	0.757	0.651	0.571

英语任务

模型	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	MATH	BBH	HumanEval	En平均
	4-shot	4-shot	4-shot	4-shot	4-shot	5-shot	4-shot	4-shot	3-shot	0-shot
	准确率	EM准确率	准确率	EM准确率	准确率	准确率	EM准确率	CoT EM准确率	CoT EM准确率	pass@1
google/gemma-3-1b-it	0.272	0.229	0.421	0.501	0.786	0.398	0.256	0.340	0.379	0.335	0.392
Qwen/Qwen2.5-1.5B-Instruct	0.334	0.378	0.503	0.501	0.844	0.604	0.257	0.272	0.272	0.277	0.424
google/gemma-2-2b-it	0.354	0.502	0.520	0.548	0.878	0.569	0.440	0.230	0.464	0.382	0.489
rinna/gemma-2-baku-2b-it	0.342	0.416	0.511	0.522	0.871	0.526	0.027	0.174	0.063	0.158	0.361
google/gemma-2-2b-jpn-it	0.370	0.503	0.532	0.539	0.879	0.557	0.351	0.132	0.451	0.392	0.471
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1	0.332	0.417	0.529	0.506	0.856	0.530	0.284	0.150	0.405	0.301	0.431
Qwen/Qwen2.5-3B-Instruct	0.364	0.446	0.562	0.504	0.869	0.664	0.096	0.612	0.128	0.471	0.472
google/gemma-3-4b-it	0.412	0.500	0.560	0.552	0.872	0.583	0.769	0.306	0.598	0.513	0.566
Qwen/Qwen2.5-7B-Instruct	0.428	0.519	0.624	0.569	0.877	0.742	0.739	0.688	0.217	0.636	0.604
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3	0.396	0.629	0.593	0.570	0.884	0.629	0.622	0.266	0.626	0.445	0.566
google/gemma-2-9b-it	0.432	0.658	0.605	0.659	0.904	0.723	0.779	0.394	0.719	0.613	0.649
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	0.404	0.640	0.609	0.623	0.900	0.680	0.710	0.392	0.663	0.491	0.611
google/gemma-3-12b-it	0.422	0.665	0.639	0.649	0.901	0.721	0.867	0.796	0.802	0.712	0.717
google/gemma-2-27b-it	0.458	0.766	0.655	0.669	0.909	0.762	0.851	0.466	0.790	0.707	0.703
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	0.424	0.747	0.663	0.664	0.911	0.749	0.821	0.442	0.772	0.682	0.687
google/gemma-3-27b-it	0.418	0.744	0.661	0.687	0.906	0.774	0.916	0.852	0.793	0.829	0.758
Qwen/Qwen2.5-32B-Instruct	0.424	0.534	0.671	0.536	0.893	0.834	0.581	0.802	0.017	0.589	0.588

评估基准

MT-Bench JA

我们使用日语MT-Bench来评估多轮对话能力，设置如下：

实现方式：FastChat [Zheng+, 2023]（提交记录 #e86e70d0）
问题：Nejumi LLM-Leaderboard NEO, mtbench_ja_question_v4
参考答案：Nejumi LLM-Leaderboard NEO, mtbench_ja_referenceanswer_v2的修订版，我们对其中的错误答案进行了验证和修正。该修订版已随swallow-evaluation Ver. 202411发布。
评判提示：Nejumi LLM-Leaderboard NEO, mtbench_ja_prompt_v1
评判模型：gpt-4o-2024-08-06
评分方式：绝对尺度归一化到0-1范围，五次运行取平均值。

日语评估基准

我们使用了llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness（提交记录 #9b42d41）和Code Generation LM Evaluation Harness（提交记录 #0261c52）。具体细节如下：

多项选择题回答（JCommonsenseQA [Kurihara et al., 2022]）
开放式问题回答（JEMHopQA [Ishii et al., 2024]）
开放式问题回答（NIILC [Èñ¢Ê†π, 2003]）
机器阅读理解（JSQuAD [Kurihara et al., 2022]）
自动摘要（XL-Sum [Hasan et al., 2021]）
机器翻译（WMT2020 en-ja [Barrault et al., 2020]）
机器翻译（WMT2020 ja-en [Barrault et al., 2020]）
数学推理（MGSM [Shi et al., 2023]）
学术考试（JMMLU [Â∞π„Çâ, 2024]）
代码生成（JHumanEval [‰ΩêËó§„Çâ, 2024]）

英语评估基准

我们使用了Language Model Evaluation Harness（v.0.4.2）和Code Generation LM Evaluation Harness（提交记录 #0261c52）。具体细节如下：

多项选择题回答（OpenBookQA [Mihaylov et al., 2018]）
开放式问题回答（TriviaQA [Joshi et al., 2017]）
机器阅读理解（SQuAD2 [Rajpurkar et al., 2018]）
常识推理（XWINO [Tikhonov and Ryabinin, 2021]）
自然语言推理（HellaSwag [Zellers et al., 2019]）
数学推理（GSM8K [Cobbe et al., 2021]）
数学推理（MATH [Hendrycks et al., 2022][Lightman et al., 2024]）
推理（BBH (BIG-Bench-Hard) [Suzgun et al., 2023]）
学术考试（MMLU [Hendrycks et al., 2021]）
代码生成（HumanEval [Chen et al., 2021]）

评估脚本可在swallow-llm/swallow-evaluation中找到，标签为v202411。

训练数据集

指令微调

以下数据集用于指令微调：

Gemma-2-LMSYS-Chat-1M-Synth
- 基于lmsys-chat-1m合成和派生的多轮日语指令数据集 [Zhang+, ICLR24]。
- 首轮用户指令通过DeepL（机器翻译）翻译成日语，助手回复使用gemma-2-27b-it生成。同一模型，即gemma-2-27b-it作为拒绝采样的评判模型（n = 6）。
- 第二轮用户指令和回复使用gemma-2-27b-it合成。同一模型对第二轮回复的质量进行评分，范围为1-10。得分低于9的第二轮回复及其对应的指令将被拒绝。
- 移除包含个人身份信息（PII）和基于模板的用户指令的对话。移除重复的指令。
Swallow-Magpie-Ultra-v0.1
- filtered-magpie-ultra-en数据集的日语变体，由gemma-2-27b-it翻译成日语。
Swallow-Gemma-Magpie-v0.1
- 一个全新的日语合成指令微调数据集，由gemma-2-27b-it生成。用户指令是针对每个主题的特定提示创建的，助手回复是为这些指令生成的。
- 对话经过启发式过滤以确保质量和长度。然后，使用gemma-2-27b-it对每个对话的质量进行评分，范围为1-10。得分 <= 7的对话将被拒绝。

🔧 技术细节

Gemma-2-Llama-Swallow系列模型是在gemma-2模型的基础上进行持续预训练而构建的。在持续预训练过程中，使用了大约2000亿个标记，这些标记来自大型日语网络语料库、日语和英文维基百科文章以及数学和编码内容等。指令微调模型（it）是通过在专门为日语构建的合成数据上进行有监督微调（SFT）而构建的。

📄 许可证

Gemma使用条款和META LLAMA 3.3社区许可证

致谢

我们感谢Google DeepMind以宽松的开源许可证发布Gemma 2。

我们获得了以下各方面的支持：

AIST项目：“物理领域生成式AI基础模型的研究与开发”
NEDO项目：“基于熟练人员视角的设计风险评估工作中支持判断的人工智能应用技术开发”（JPNP18002），属于“下一代人工智能和机器人核心集成技术开发”项目
MEXT项目：“构建确保生成式AI模型透明度和可靠性的研发中心”
AIST计划：大型生成式AI开发支持计划
TPU研究云

作者

团队成员包括：

引用方式

如果您认为我们的工作有帮助，请随时引用以下论文：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@misc{ma:arxiv2025,
      title={Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models},
      author={Youmi Ma and Sakae Mizuki and Kazuki Fujii and Taishi Nakamura and Masanari Ohi and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Koki Maeda and Kakeru Hattori and Takumi Okamoto and Shigeki Ishida and Rio Yokota and Hiroya Takamura and Naoaki Okazaki},
      year={2025},
      eprint={2503.23714},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.23714},
}

参考文献

@misc{gemmateam2024gemma2improvingopen,
      title={Gemma 2: Improving Open Language Models at a Practical Size},
      author={Gemma Team},
      year={2024},
      eprint={2408.00118},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2408.00118},
}