模型简介
模型特点
模型能力
使用案例
🚀 Llama 3.3 Swallow - 基于Llama构建
Llama 3.3 Swallow是一个700亿参数的大语言模型,它通过在Meta Llama 3.3模型上进行持续预训练而构建。该模型在保留英文能力的同时,增强了原版Llama 3.3的日语能力。我们使用了大约3150亿个来自大型日语网络语料库(Swallow语料库版本2)、日语和英文维基百科文章以及数学和编码内容等的标记进行持续预训练(详见基础模型的训练数据集部分)。指令调优模型(Instruct)是通过在专门为日语构建的合成数据上进行有监督微调(SFT)而构建的。查看Swallow模型索引部分,以找到其他模型变体。
🚀 快速开始
Llama 3.3 Swallow为用户提供了在英文和日语场景下的强大语言处理能力。你可以通过访问模型的Hugging Face链接来使用不同版本的模型。
✨ 主要特性
- 双语能力增强:在保留英文能力的基础上,显著提升了日语处理能力。
- 持续预训练:使用大规模多样化的语料进行持续预训练,提升模型性能。
- 多种模型变体:提供不同版本和规格的模型,满足不同需求。
📚 详细文档
发布历史
- 2025年3月10日:发布了Llama-3.3-Swallow-70B-Instruct-v0.4和Llama-3.3-Swallow-70B-v0.4。
- 2024年12月30日:发布了Llama-3.1-Swallow-70B-Instruct-v0.3。
- 2024年12月23日:发布了Llama-3.1-Swallow-8B-Instruct-v0.3。
- 2024年11月11日:发布了Llama-3.1-Swallow-8B-v0.2和Llama-3.1-Swallow-8B-Instruct-v0.2。
- 2024年10月8日:发布了Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1和Llama-3.1-Swallow-70B-Instruct-v0.1。
Swallow模型索引
模型 | Llama-3.1-Swallow v0.1 | Llama-3.1-Swallow-Instruct v0.1 | Llama-3.1-Swallow v0.2 | Llama-3.1-Swallow-Instruct v0.2 | Llama-3.1-Swallow-Instruct v0.3 | Llama-3.3-Swallow v0.4 | Llama-3.3-Swallow-Instruct v0.4 |
---|---|---|---|---|---|---|---|
8B | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | ||
70B | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace |
该网站https://swallow-llm.github.io/提供了Swallow团队开发的大语言模型。
模型详情
属性 | 详情 |
---|---|
模型类型 | 请参考Llama 3.1 MODEL_CARD了解模型架构详情。 |
支持语言 | 日语、英语 |
库 | Megatron-LM |
分词器 | 请参考Llama 3.1博客了解分词器详情。 |
联系方式 | swallow[at]nlp.c.titech.ac.jp |
模型性能
日语任务
模型 | JCom. | JEMHopQA | NIILC | JSQuAD | XL-Sum | MGSM | WMT20-en-ja | WMT20-ja-en | JMMLU | JHumanEval | 日语平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
4-shot | 4-shot | 4-shot | 4-shot | 1-shot | 4-shot | 4-shot | 4-shot | 5-shot | 0-shot | ||
EM准确率 | 字符F1值 | 字符F1值 | 字符F1值 | ROUGE-2 | EM准确率 | BLEU | BLEU | EM准确率 | pass@1 | ||
Qwen2-72B | 0.960 | 0.620 | 0.561 | 0.926 | 0.238 | 0.768 | 0.275 | 0.241 | 0.782 | 0.561 | 0.593 |
Qwen2.5-72B | 0.972 | 0.611 | 0.619 | 0.930 | 0.279 | 0.828 | 0.287 | 0.252 | 0.804 | 0.648 | 0.623 |
Sarashina2-70B | 0.929 | 0.717 | 0.668 | 0.929 | 0.190 | 0.488 | 0.313 | 0.243 | 0.592 | 0.235 | 0.530 |
Llama 3 70B | 0.946 | 0.606 | 0.589 | 0.922 | 0.228 | 0.664 | 0.286 | 0.252 | 0.705 | 0.491 | 0.569 |
Llama 3.1 70B | 0.946 | 0.616 | 0.603 | 0.925 | 0.228 | 0.672 | 0.287 | 0.257 | 0.669 | 0.462 | 0.566 |
Llama 3 Youko 70B | 0.946 | 0.602 | 0.610 | 0.923 | 0.242 | 0.684 | 0.292 | 0.250 | 0.704 | 0.463 | 0.571 |
Llama 3 Swallow 70B | 0.968 | 0.675 | 0.684 | 0.923 | 0.239 | 0.708 | 0.307 | 0.255 | 0.706 | 0.477 | 0.594 |
Llama 3.1 Swallow 70B | 0.955 | 0.645 | 0.678 | 0.923 | 0.272 | 0.684 | 0.320 | 0.259 | 0.709 | 0.487 | 0.593 |
Llama 3.3 Swallow 70B v0.4 | 0.967 | 0.671 | 0.732 | 0.924 | 0.283 | 0.776 | 0.327 | 0.260 | 0.742 | 0.604 | 0.629 |
英语任务
模型 | OpenBookQA | TriviaQA | HellaSWAG | SQuAD2.0 | XWINO | MMLU | GSM8K | MATH | BBH | HumanEval | 英语平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
4-shot | 4-shot | 4-shot | 4-shot | 4-shot | 5-shot | 4-shot | 4-shot | 3-shot | 0-shot | ||
准确率 | EM准确率 | 准确率 | EM准确率 | 准确率 | 准确率 | EM准确率 | CoT EM准确率 | CoT EM准确率 | pass@1 | ||
Qwen2-72B | 0.418 | 0.790 | 0.677 | 0.673 | 0.915 | 0.842 | 0.893 | 0.560 | 0.643 | 0.608 | 0.702 |
Qwen2.5-72B | 0.416 | 0.760 | 0.685 | 0.693 | 0.901 | 0.861 | 0.870 | 0.626 | 0.727 | 0.554 | 0.709 |
Sarashina2-70B | 0.388 | 0.537 | 0.628 | 0.675 | 0.917 | 0.630 | 0.011 | 0.206 | 0.639 | 0.281 | 0.491 |
Llama 3 70B | 0.440 | 0.826 | 0.690 | 0.618 | 0.920 | 0.787 | 0.801 | 0.446 | 0.829 | 0.527 | 0.689 |
Llama 3.1 70B | 0.450 | 0.829 | 0.690 | 0.605 | 0.920 | 0.786 | 0.798 | 0.434 | 0.655 | 0.546 | 0.671 |
Llama 3 Youko 70B | 0.436 | 0.829 | 0.690 | 0.610 | 0.922 | 0.785 | 0.797 | 0.408 | 0.826 | 0.412 | 0.671 |
Llama 3 Swallow 70B | 0.430 | 0.823 | 0.682 | 0.628 | 0.923 | 0.774 | 0.817 | 0.414 | 0.734 | 0.499 | 0.672 |
Llama 3.1 Swallow 70B v0.1 | 0.428 | 0.826 | 0.690 | 0.612 | 0.927 | 0.772 | 0.809 | 0.380 | 0.806 | 0.540 | 0.679 |
Llama 3.1 Swallow 70B v0.4 | 0.424 | 0.817 | 0.683 | 0.641 | 0.920 | 0.802 | 0.863 | 0.496 | 0.754 | 0.709 | 0.711 |
评估基准
评估脚本可在swallow-llm/swallow-evaluation找到,标签为v202411
。
日语评估基准
我们使用了llm-jp-eval(v1.3.0)、JP语言模型评估套件(提交编号9b42d41)和代码生成LM评估套件(提交编号0261c52)。详情如下:
- 多项选择题回答(JCommonsenseQA [Kurihara等人,2022])
- 开放式问题回答(JEMHopQA [Ishii等人,2024])
- 开放式问题回答(NIILC [Èñ¢Ê†π, 2003])
- 机器阅读理解(JSQuAD [Kurihara等人,2022])
- 自动摘要(XL-Sum [Hasan等人,2021])
- 机器翻译(WMT2020 ja-en [Barrault等人,2020])
- 机器翻译(WMT2020 en-ja [Barrault等人,2020])
- 数学推理(MGSM [Shi等人,2023])
- 学术考试(JMMLU [Â∞π„Çâ, 2024])
- 代码生成(JHumanEval [‰ΩêËó§„Çâ, 2024])
英语评估基准
我们使用了语言模型评估套件(v.0.4.2)和代码生成LM评估套件(提交编号0261c52)。详情如下:
- 多项选择题回答(OpenBookQA [Mihaylov等人,2018])
- 开放式问题回答(TriviaQA [Joshi等人,2017])
- 机器阅读理解(SQuAD2 [Rajpurkar等人,2018])
- 常识推理(XWINO [Tikhonov和Ryabinin,2021])
- 自然语言推理(HellaSwag [Zellers等人,2019])
- 数学推理(GSM8K [Cobbe等人,2021])
- 数学推理(MATH [Hendrycks等人,2022][Lightman等人,2024])
- 推理(BBH(BIG-Bench-Hard)[Suzgun等人,2023])
- 学术考试(MMLU [Hendrycks等人,2021])
- 代码生成(HumanEval [Chen等人,2021])
训练数据集
持续预训练
以下数据集用于持续预训练:
- Cosmopedia
- Dclm-baseline-1.0
- 英文维基百科
- FineMath-4+
- 日文维基百科
- Laboro ParaCorpus
- Swallow语料库版本2(使用Swallow教育分类器(基于维基百科)过滤)
- Swallow语料库版本2(使用Swallow教育分类器过滤)
- Swallow语料库版本2(合成问答格式)
- Swallow代码版本0.3(从The Stack v2 train smol ids过滤,然后使用Llama-3.3-70B-Instruct进行重构)
Swallow语料库版本2
我们通过从Common Crawl中提取高质量的日语文本构建了Swallow语料库。在版本2中,我们扩大了Common Crawl的收集范围,并修改了管道顺序,以实现更灵活的质量过滤。对于Llama 3.1 Swallow v0.2,我们进一步优化了质量过滤和数据采样策略,从而为预训练选择了更高质量的日语文本。对于Llama 3.3 Swallow 70B v0.4,我们使用Gemma 2 27B IT对语料库中的教育网页文档进行释义,生成了合成问答格式的文本。方法和分析的更多细节将在即将发表的论文中提供。
Swallow代码版本0.3
我们通过从The Stack v2 train smol ids中过滤,然后使用Llama-3.3-70B-Instruct进行重构,构建了Swallow代码版本0.3。在过滤过程中,我们删除了有语法错误或pylint评分低于7的代码文本。我们已经发布了过滤后的版本,即Swallow代码版本0.1。在重构过程中,我们向Llama-3.3-70B-Instruct提供了一个提示,要求其遵循Google Python风格指南和编码最佳实践。
风险和局限性
此处发布的模型仍处于我们研发的早期阶段,尚未进行调整以确保输出符合人类意图和安全考虑。
致谢
我们感谢Meta Research以慷慨的开放许可证发布Llama 3.3。我们感谢亚马逊网络服务(AWS)提供对SageMaker HyperPod的访问权限,这使得Llama 3.3 Swallow项目的训练成为可能。我们获得了以下各种支持:
- AIST项目:“物理领域生成式AI基础模型的研究与开发”
- NEDO项目:“基于熟练人员视角的设计风险评估工作中支持判断的人工智能应用技术开发”(JPNP18002),属于“下一代人工智能和机器人核心集成技术开发”项目
- MEXT项目:“建立确保生成式AI模型透明度和可靠性的研发中心”
- AIST计划:大型生成式AI开发支持计划
许可证
作者
以下是团队成员:
- 来自东京工业大学科学研究所冈崎实验室的成员:
- 来自东京工业大学科学研究所横田实验室的成员:
- 来自日本产业技术综合研究所人工智能研究中心的成员:
如何引用
如果您认为我们的工作有帮助,请随意引用以下论文:
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@misc{fujii2025rewritingpretrainingdataboosts,
title={Rewriting Pre-Training Data Boosts LLM Performance in Math and Code},
author={Kazuki Fujii and Yukito Tajima and Sakae Mizuki and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Masanari Ohi and Masaki Kawamura and Taishi Nakamura and Takumi Okamoto and Shigeki Ishida and Kakeru Hattori and Youmi Ma and Hiroya Takamura and Rio Yokota and Naoaki Okazaki},
year={2025},
eprint={2505.02881},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.02881},
}
参考文献
@misc{dubey2024llama3herdmodels,
title={The Llama 3 Herd of Models},
author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
year={2024},
eprint={2407.21783},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.21783},
}



