Llama-3.3-Swallow-70B-v0.4开源大模型 - 支持英日双语对话交流

首页

Llama 3.3 Swallow 70B V0.4

由 tokyotech-llm 开发

Llama 3.3 Swallow是一个700亿参数的大语言模型，基于Meta Llama 3.3构建，增强了日语能力同时保留英文能力。

大型语言模型

Transformers

支持多种语言#日语增强 #双语大模型 #持续预训练

下载量 1,950

发布时间 : 2/17/2025

模型简介

Llama 3.3 Swallow通过在Meta Llama 3.3模型上进行持续预训练而构建，使用大规模日语和英语语料库增强双语处理能力。

模型特点

双语能力增强

在保留英文能力的基础上，显著提升了日语处理能力。

持续预训练

使用大规模多样化的语料进行持续预训练，提升模型性能。

多种模型变体

提供不同版本和规格的模型，满足不同需求。

模型能力

日语文本生成

英语文本生成

机器翻译

问答系统

代码生成

数学推理

使用案例

教育

日语学习辅助

帮助学生理解和生成日语文本。

在日语评估基准中表现优异。

翻译

日英互译

用于日英和英日机器翻译任务。

在WMT20翻译任务中表现良好。

编程

代码生成

生成符合Google Python风格指南的代码。

在JHumanEval评估中表现优异。

🚀 Llama 3.3 Swallow - 基于Llama构建

Llama 3.3 Swallow是一个700亿参数的大语言模型，它通过在Meta Llama 3.3模型上进行持续预训练而构建。该模型在保留英文能力的同时，增强了原版Llama 3.3的日语能力。我们使用了大约3150亿个来自大型日语网络语料库（Swallow语料库版本2）、日语和英文维基百科文章以及数学和编码内容等的标记进行持续预训练（详见基础模型的训练数据集部分）。指令调优模型（Instruct）是通过在专门为日语构建的合成数据上进行有监督微调（SFT）而构建的。查看Swallow模型索引部分，以找到其他模型变体。

🚀 快速开始

Llama 3.3 Swallow为用户提供了在英文和日语场景下的强大语言处理能力。你可以通过访问模型的Hugging Face链接来使用不同版本的模型。

✨ 主要特性

双语能力增强：在保留英文能力的基础上，显著提升了日语处理能力。
持续预训练：使用大规模多样化的语料进行持续预训练，提升模型性能。
多种模型变体：提供不同版本和规格的模型，满足不同需求。

📚 详细文档

发布历史

2025年3月10日：发布了Llama-3.3-Swallow-70B-Instruct-v0.4和Llama-3.3-Swallow-70B-v0.4。
2024年12月30日：发布了Llama-3.1-Swallow-70B-Instruct-v0.3。
2024年12月23日：发布了Llama-3.1-Swallow-8B-Instruct-v0.3。
2024年11月11日：发布了Llama-3.1-Swallow-8B-v0.2和Llama-3.1-Swallow-8B-Instruct-v0.2。
2024年10月8日：发布了Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1和Llama-3.1-Swallow-70B-Instruct-v0.1。

Swallow模型索引

模型	Llama-3.1-Swallow v0.1	Llama-3.1-Swallow-Instruct v0.1	Llama-3.1-Swallow v0.2	Llama-3.1-Swallow-Instruct v0.2	Llama-3.1-Swallow-Instruct v0.3	Llama-3.3-Swallow v0.4	Llama-3.3-Swallow-Instruct v0.4
8B	🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace
70B	🐱 HuggingFace	🐱 HuggingFace			🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace

该网站https://swallow-llm.github.io/提供了Swallow团队开发的大语言模型。

模型详情

属性	详情
模型类型	请参考Llama 3.1 MODEL_CARD了解模型架构详情。
支持语言	日语、英语
库	Megatron-LM
分词器	请参考Llama 3.1博客了解分词器详情。
联系方式	swallow[at]nlp.c.titech.ac.jp

模型性能

日语任务

模型	JCom.	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20-en-ja	WMT20-ja-en	JMMLU	JHumanEval	日语平均
	4-shot	4-shot	4-shot	4-shot	1-shot	4-shot	4-shot	4-shot	5-shot	0-shot
	EM准确率	字符F1值	字符F1值	字符F1值	ROUGE-2	EM准确率	BLEU	BLEU	EM准确率	pass@1
Qwen2-72B	0.960	0.620	0.561	0.926	0.238	0.768	0.275	0.241	0.782	0.561	0.593
Qwen2.5-72B	0.972	0.611	0.619	0.930	0.279	0.828	0.287	0.252	0.804	0.648	0.623
Sarashina2-70B	0.929	0.717	0.668	0.929	0.190	0.488	0.313	0.243	0.592	0.235	0.530
Llama 3 70B	0.946	0.606	0.589	0.922	0.228	0.664	0.286	0.252	0.705	0.491	0.569
Llama 3.1 70B	0.946	0.616	0.603	0.925	0.228	0.672	0.287	0.257	0.669	0.462	0.566
Llama 3 Youko 70B	0.946	0.602	0.610	0.923	0.242	0.684	0.292	0.250	0.704	0.463	0.571
Llama 3 Swallow 70B	0.968	0.675	0.684	0.923	0.239	0.708	0.307	0.255	0.706	0.477	0.594
Llama 3.1 Swallow 70B	0.955	0.645	0.678	0.923	0.272	0.684	0.320	0.259	0.709	0.487	0.593
Llama 3.3 Swallow 70B v0.4	0.967	0.671	0.732	0.924	0.283	0.776	0.327	0.260	0.742	0.604	0.629

英语任务

模型	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	MATH	BBH	HumanEval	英语平均
	4-shot	4-shot	4-shot	4-shot	4-shot	5-shot	4-shot	4-shot	3-shot	0-shot
	准确率	EM准确率	准确率	EM准确率	准确率	准确率	EM准确率	CoT EM准确率	CoT EM准确率	pass@1
Qwen2-72B	0.418	0.790	0.677	0.673	0.915	0.842	0.893	0.560	0.643	0.608	0.702
Qwen2.5-72B	0.416	0.760	0.685	0.693	0.901	0.861	0.870	0.626	0.727	0.554	0.709
Sarashina2-70B	0.388	0.537	0.628	0.675	0.917	0.630	0.011	0.206	0.639	0.281	0.491
Llama 3 70B	0.440	0.826	0.690	0.618	0.920	0.787	0.801	0.446	0.829	0.527	0.689
Llama 3.1 70B	0.450	0.829	0.690	0.605	0.920	0.786	0.798	0.434	0.655	0.546	0.671
Llama 3 Youko 70B	0.436	0.829	0.690	0.610	0.922	0.785	0.797	0.408	0.826	0.412	0.671
Llama 3 Swallow 70B	0.430	0.823	0.682	0.628	0.923	0.774	0.817	0.414	0.734	0.499	0.672
Llama 3.1 Swallow 70B v0.1	0.428	0.826	0.690	0.612	0.927	0.772	0.809	0.380	0.806	0.540	0.679
Llama 3.1 Swallow 70B v0.4	0.424	0.817	0.683	0.641	0.920	0.802	0.863	0.496	0.754	0.709	0.711

评估基准

评估脚本可在swallow-llm/swallow-evaluation找到，标签为v202411。

日语评估基准

我们使用了llm-jp-eval(v1.3.0)、JP语言模型评估套件（提交编号9b42d41）和代码生成LM评估套件（提交编号0261c52）。详情如下：

多项选择题回答（JCommonsenseQA [Kurihara等人，2022]）
开放式问题回答（JEMHopQA [Ishii等人，2024]）
开放式问题回答（NIILC [Èñ¢Ê†π, 2003]）
机器阅读理解（JSQuAD [Kurihara等人，2022]）
自动摘要（XL-Sum [Hasan等人，2021]）
机器翻译（WMT2020 ja-en [Barrault等人，2020]）
机器翻译（WMT2020 en-ja [Barrault等人，2020]）
数学推理（MGSM [Shi等人，2023]）
学术考试（JMMLU [Â∞π„Çâ, 2024]）
代码生成（JHumanEval [‰ΩêËó§„Çâ, 2024]）

英语评估基准

我们使用了语言模型评估套件（v.0.4.2）和代码生成LM评估套件（提交编号0261c52）。详情如下：

多项选择题回答（OpenBookQA [Mihaylov等人，2018]）
开放式问题回答（TriviaQA [Joshi等人，2017]）
机器阅读理解（SQuAD2 [Rajpurkar等人，2018]）
常识推理（XWINO [Tikhonov和Ryabinin，2021]）
自然语言推理（HellaSwag [Zellers等人，2019]）
数学推理（GSM8K [Cobbe等人，2021]）
数学推理（MATH [Hendrycks等人，2022][Lightman等人，2024]）
推理（BBH（BIG-Bench-Hard）[Suzgun等人，2023]）
学术考试（MMLU [Hendrycks等人，2021]）
代码生成（HumanEval [Chen等人，2021]）

训练数据集

持续预训练

以下数据集用于持续预训练：

Cosmopedia
Dclm-baseline-1.0
英文维基百科
FineMath-4+
日文维基百科
Laboro ParaCorpus
Swallow语料库版本2（使用Swallow教育分类器（基于维基百科）过滤）
Swallow语料库版本2（使用Swallow教育分类器过滤）
Swallow语料库版本2（合成问答格式）
Swallow代码版本0.3（从The Stack v2 train smol ids过滤，然后使用Llama-3.3-70B-Instruct进行重构）

Swallow语料库版本2

我们通过从Common Crawl中提取高质量的日语文本构建了Swallow语料库。在版本2中，我们扩大了Common Crawl的收集范围，并修改了管道顺序，以实现更灵活的质量过滤。对于Llama 3.1 Swallow v0.2，我们进一步优化了质量过滤和数据采样策略，从而为预训练选择了更高质量的日语文本。对于Llama 3.3 Swallow 70B v0.4，我们使用Gemma 2 27B IT对语料库中的教育网页文档进行释义，生成了合成问答格式的文本。方法和分析的更多细节将在即将发表的论文中提供。

Swallow代码版本0.3

我们通过从The Stack v2 train smol ids中过滤，然后使用Llama-3.3-70B-Instruct进行重构，构建了Swallow代码版本0.3。在过滤过程中，我们删除了有语法错误或pylint评分低于7的代码文本。我们已经发布了过滤后的版本，即Swallow代码版本0.1。在重构过程中，我们向Llama-3.3-70B-Instruct提供了一个提示，要求其遵循Google Python风格指南和编码最佳实践。

风险和局限性

此处发布的模型仍处于我们研发的早期阶段，尚未进行调整以确保输出符合人类意图和安全考虑。

致谢

我们感谢Meta Research以慷慨的开放许可证发布Llama 3.3。我们感谢亚马逊网络服务（AWS）提供对SageMaker HyperPod的访问权限，这使得Llama 3.3 Swallow项目的训练成为可能。我们获得了以下各种支持：

AIST项目：“物理领域生成式AI基础模型的研究与开发”
NEDO项目：“基于熟练人员视角的设计风险评估工作中支持判断的人工智能应用技术开发”（JPNP18002），属于“下一代人工智能和机器人核心集成技术开发”项目
MEXT项目：“建立确保生成式AI模型透明度和可靠性的研发中心”
AIST计划：大型生成式AI开发支持计划

许可证

META LLAMA 3.3社区许可证和Gemma使用条款

作者

以下是团队成员：

如何引用

如果您认为我们的工作有帮助，请随意引用以下论文：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@misc{fujii2025rewritingpretrainingdataboosts,
      title={Rewriting Pre-Training Data Boosts LLM Performance in Math and Code}, 
      author={Kazuki Fujii and Yukito Tajima and Sakae Mizuki and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Masanari Ohi and Masaki Kawamura and Taishi Nakamura and Takumi Okamoto and Shigeki Ishida and Kakeru Hattori and Youmi Ma and Hiroya Takamura and Rio Yokota and Naoaki Okazaki},
      year={2025},
      eprint={2505.02881},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2505.02881}, 
}

参考文献

@misc{dubey2024llama3herdmodels,
      title={The Llama 3 Herd of Models}, 
      author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
      year={2024},
      eprint={2407.21783},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.21783}, 
}