模型简介
模型特点
模型能力
使用案例
language:
- en
- ja library_name: transformers pipeline_tag: text-generation license:
- gemma
- llama3.3 datasets:
- tokyotech-llm/lmsys-chat-1m-synth
- tokyotech-llm/swallow-magpie-ultra-v0.1
- tokyotech-llm/swallow-gemma-magpie-v0.1
- lmsys/lmsys-chat-1m
- argilla/magpie-ultra-v0.1
Gemma-2-Llama-Swallow 系列模型
Gemma-2-Llama-Swallow 系列是通过对 gemma-2 模型进行持续预训练构建的。该系列在保留原版 Gemma 2 英语能力的同时,显著增强了日语处理能力。我们使用了约 2000 亿 tokens 的混合语料进行持续预训练,包括:
- 来自大型日语网络语料库(Swallow Corpus 第二版)的采样数据
- 日英双语维基百科文章
- 数学与编程相关内容(详见基础模型的训练数据集章节)
指令微调版本(it)通过针对日语特别构建的合成数据,采用监督式微调(SFT)方法训练而成。其他变体模型请参阅「Swallow 模型索引」章节。本系列基于 Gemma 和 Llama 架构构建。
版本发布历史
- 2025年5月19日:发布以下模型
Gemma-2-Llama-Swallow-2b-pt-v0.1
Gemma-2-Llama-Swallow-9b-pt-v0.1
Gemma-2-Llama-Swallow-27b-pt-v0.1
Gemma-2-Llama-Swallow-2b-it-v0.1
Gemma-2-Llama-Swallow-9b-it-v0.1
Gemma-2-Llama-Swallow-27b-it-v0.1
Swallow 模型索引
模型 | gemma-2-swallow v0.1 | gemma-2-swallow-it v0.1 |
---|---|---|
2B | ü§ó HuggingFace | ü§ó HuggingFace |
9B | ü§ó HuggingFace | ü§ó HuggingFace |
27B | ü§ó HuggingFace | ü§ó HuggingFace |
访问官网 https://swallow-llm.github.io/ 获取 Swallow 团队开发的大语言模型资源。
模型详情
- 模型类型:架构细节请参阅 Gemma 2 论文
- 支持语言:日语、英语
- 开发库:maxtext
- 分词器:技术细节参见 Gemma 2 论文
- 联系方式:swallow[at]nlp.c.titech.ac.jp
模型性能
MT-Bench 日语评测
(此处保留原始性能表格,仅翻译表头)
模型 | 编程 | 信息提取 | 人文科学 | 数学 | 逻辑推理 | 角色扮演 | STEM | 写作 | 日语平均分 |
---|
日语任务评测
(此处保留原始性能表格,仅翻译表头)
| 模型 | JCom.常识问答 | JEMHopQA开放问答 | NIILC开放问答 | JSQuAD阅读理解 | XL-Sum摘要 | MGSM数学推理 | WMT20英日翻译 | WMT20日英翻译 | JMMLU学术考试 | JHumanEval代码生成 | 日语综合平均 |
英语任务评测
(此处保留原始性能表格,仅翻译表头)
| 模型 | OpenBookQA选择题 | TriviaQA开放问答 | HellaSWAG常识推理 | SQuAD2.0阅读理解 | XWINO推理 | MMLU学术考试 | GSM8K数学 | MATH高等数学 | BBH复杂推理 | HumanEval代码生成 | 英语综合平均 |
评测基准
评测脚本详见 swallow-llm/swallow-evaluation(版本标记为v202411
)
MT-Bench 日语评测配置
采用 日语 MT-Bench 评估多轮对话能力:
- 实现框架:FastChat [Zheng+, 2023] (commit #e86e70d0)
- 问题集:Nejumi LLM-Leaderboard NEO, mtbench_ja_question_v4
- 参考答案:基于 Nejumi LLM-Leaderboard NEO, mtbench_ja_referenceanswer_v2 的修正版,已随 swallow-evaluation Ver.202411 发布
- 评判提示:Nejumi LLM-Leaderboard NEO, mtbench_ja_prompt_v1
- 评判模型:
gpt-4o-2024-08-06
- 评分标准:0-1标准化绝对评分,五轮平均
日语评测基准
采用 llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(commit #9b42d41) 和 Code Generation LM Evaluation Harness(commit #0261c52),包含:
- 选择题(JCommonsenseQA [Kurihara等, 2022])
- 开放式问答(JEMHopQA [Ishii等, 2024])
- 开放式问答(NIILC [Èñ¢Ê†π, 2003])
- 机器阅读理解(JSQuAD [Kurihara等, 2022])
- 自动摘要(XL-Sum [Hasan等, 2021])
- 机器翻译(WMT2020 日英 [Barrault等, 2020])
- 机器翻译(WMT2020 英日 [Barrault等, 2020])
- 数学推理(MGSM [Shi等, 2023])
- 学术考试(JMMLU [Â∞π„Çâ, 2024])
- 代码生成(JHumanEval [‰ΩêËó§„Çâ, 2024])
英语评测基准
采用 Language Model Evaluation Harness(v.0.4.2) 和 Code Generation LM Evaluation Harness(commit #0261c52),包含:
- 选择题(OpenBookQA [Mihaylov等, 2018])
- 开放式问答(TriviaQA [Joshi等, 2017])
- 机器阅读理解(SQuAD2 [Rajpurkar等, 2018])
- 常识推理(XWINO [Tikhonov等, 2021])
- 自然语言推理(HellaSwag [Zellers等, 2019])
- 数学推理(GSM8K [Cobbe等, 2021])
- 高等数学(MATH [Hendrycks等, 2022][Lightman等, 2024])
- 复杂推理(BBH [Suzgun等, 2023])
- 学术考试(MMLU [Hendrycks等, 2021])
- 代码生成(HumanEval [Chen等, 2021])
使用示例
pip install vllm
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
model_name = "tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
model=model_name,
tensor_parallel_size=1,
)
sampling_params = SamplingParams(
temperature=0.6, top_p=0.9, max_tokens=512,
)
message = [
{
"role": "user",
"content": "日本の春から夏の移り変わりについて教えてください",
},
]
prompt = tokenizer.apply_chat_template(
message, tokenize=False, add_generation_prompt=True
)
output = llm.generate(prompt, sampling_params)
print(output[0].outputs[0].text)
训练数据集
指令微调数据
采用以下数据集进行指令微调:
- Gemma-2-LMSYS-Chat-1M-Synth
- 基于 lmsys-chat-1m [Zhang+, ICLR24] 合成的日语多轮对话数据集
- 首轮用户指令通过 DeepL 翻译为日语,助理响应由 gemma-2-27b-it 生成,并采用相同模型进行拒绝采样(n=6)
- 次轮对话由 gemma-2-27b-it 合成,评分低于9的响应被剔除
- 移除含个人身份信息(PII)和模板化指令的对话
- Swallow-Magpie-Ultra-v0.1
filtered-magpie-ultra-en
数据集的日语变体,由 gemma-2-27b-it 翻译
- Swallow-Gemma-Magpie-v0.1
- 由 gemma-2-27b-it 生成的原创日语指令数据集
- 经过启发式质量过滤后,采用相同模型进行7分制评分,剔除低质量对话
风险与限制
当前发布版本仍属研发早期阶段,尚未完全优化输出内容与人类价值观和安全要求的对齐性。
致谢
感谢 Google DeepMind 以开放许可发布 Gemma 2。
本项目获得以下支持:
- 产业技术综合研究所(AIST):"物理领域生成式AI基础模型研发"项目
- 新能源产业技术综合开发机构(NEDO):"基于熟练工视角的设计风险评估AI辅助技术开发"项目(JPNP18002)
- 文部科学省(MEXT):"生成式AI模型透明性与可靠性保障研发中心"计划
- AIST大规模生成式AI开发支持计划
- TPU Research Cloud
许可协议
Gemma 使用条款 和 META LLAMA 3.3 社区许可
开发团队
成员来自:
引用方式
若您认为我们的工作有帮助,请引用以下论文:
@inproceedings{Fujii:COLM2024,
title={跨语言大模型适应的持续预训练:增强日语能力},
author={藤井一树 and 中村大志 and 卢梦赛 and 饭田弘树 and 大井将成 and 服部翔 and 平井翔太 and 水崎荣 and 横田理生 and 冈崎直昭},
booktitle="第一届语言建模会议论文集",
series={COLM},
pages="(待刊)",
year="2024",
month=10,
address={美国宾夕法尼亚大学},
}
@inproceedings{Okazaki:COLM2024,
title={构建面向大语言模型的大型日语网络语料库},
author={冈崎直昭 and 服部翔 and 平井翔太 and 饭田弘树 and 大井将成 and 藤井一树 and 中村大志 and 卢梦赛 and 横田理生 and 水崎荣},
booktitle="第一届语言建模会议论文集",
series={COLM},
pages="(待刊)",
year="2024",
month=10,
address={美国宾夕法尼亚大学},
}
@misc{ma:arxiv2025,
title={基于开源大语言模型构建人类撰写指令的微调数据集},
author={马悠米 and 水崎荣 and 藤井一树 and 中村大志 and 大井将成 and 岛田阳菜里 and 盐谷泰平 and 斋藤康大郎 and 前田光熙 and 服部翔 and 冈本拓海 and 石田茂树 and 横田理生 and 高村广哉 and 冈崎直昭},
year={2025},
eprint={2503.23714},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.23714},
}
参考文献
@misc{gemmateam2024gemma2improvingopen,
title={Gemma 2:实用规模开放语言模型的改进},
author={Gemma 团队},
year={2024},
eprint={2408.00118},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2408.00118},
}


