Llama-3-Swallow-8B-v0.1开源大模型 - 提升日语处理能力，免费部署超实用

首页

Llama 3 Swallow 8B V0.1

由 tokyotech-llm 开发

基于Meta Llama 3构建的日语增强大语言模型，通过持续预训练和指令微调提升日语处理能力

大型语言模型

Transformers

支持多种语言#日语优化 #多语言生成 #学术考试增强

下载量 2,230

发布时间 : 5/20/2024

模型简介

Llama3 Swallow是基于Meta Llama 3系列模型进行日语数据增强训练的变体，包含8B和70B两种参数规模，支持英语和日语文本生成任务

模型特点

日语能力增强

通过大量日语数据持续预训练，显著提升日语任务表现

双语支持

同时支持英语和日语处理，在双语任务中表现优异

指令优化版本

提供经过监督微调(SFT)和聊天向量技术优化的指令版本

模型能力

日语文本生成

英语文本生成

机器翻译

问答系统

代码生成

数学推理

摘要生成

使用案例

自然语言处理

日语问答系统

构建面向日语用户的智能问答应用

在JCommonsenseQA基准上达到89.45%准确率

英日机器翻译

实现高质量英日双向翻译

WMT20英日翻译BLEU得分0.2758

教育应用

日语学习助手

辅助日语学习者进行语言练习和知识查询

🚀 Llama3 Swallow - 基于Meta Llama 3构建

我们的Swallow模型在Llama 3家族的基础上进行了持续预训练，主要增加了日语语言数据。指令版本使用了监督微调（SFT）和聊天向量。其他模型的链接可在索引中找到。

🚀 快速开始

本仓库提供了由Swallow-LLM开发的大语言模型。你可以阅读我们的博客文章了解更多信息。

✨ 主要特性

基于Llama 3家族进行持续预训练，增加了日语语言数据。
指令版本使用了监督微调（SFT）和聊天向量。
在多种日语和英语任务上表现出色。

📚 详细文档

模型发布更新

我们很高兴分享最新模型的发布计划：

2024年7月1日：发布了Llama-3-Swallow-8B-v0.1、Llama-3-Swallow-8B-Instruct-v0.1、Llama-3-Swallow-70B-v0.1和Llama-3-Swallow-70B-Instruct-v0.1。

Swallow模型索引

模型	Llama-3-Swallow	Llama3 Swallow Instruct
8B	链接	链接
70B	链接	链接

模型详情

属性	详情
模型类型	请参考Llama 3 MODEL_CARD了解模型架构详情。
支持语言	日语、英语
库	Megatron-LM
分词器	请参考Llama 3博客了解分词器详情。
联系方式	swallow[at]nlp.c.titech.ac.jp

模型性能

日语任务

模型	大小	JCom.（4-shot，EM acc）	JEMHopQA（4-shot，Char-F1）	NIILC（4-shot，Char-F1）	JSQuAD（4-shot，Char-F1）	XL-Sum（1-shot，ROUGE-2）	MGSM（4-shot，EM acc）	WMT20-en-ja（4-shot，BLEU）	WMT20-ja-en（4-shot，BLEU）	JMMLU（5-shot，EM acc）	JHumanEval（0-shot，pass@1）	日语平均
Llama-2-7b	7B	0.2618	0.4914	0.3301	0.8001	0.1742	0.0560	0.1764	0.1742	0.2824	0.1250	0.2872
Swallow-7b-hf	7B	0.4888	0.5044	0.5925	0.8424	0.1823	0.1240	0.2505	0.1482	0.3219	0.0183	0.3473
Mistral-7B-v0.1	7B	0.7471	0.4482	0.2691	0.8588	0.2026	0.1880	0.1430	0.1738	0.4213	0.2598	0.3712
Swallow-MS-7b-v0.1	7B	0.8758	0.5153	0.5647	0.8762	0.1993	0.2400	0.2507	0.1667	0.4527	0.2335	0.4375
Qwen2-7B	7B	0.8776	0.4627	0.3766	0.8984	0.1716	0.5480	0.2080	0.1949	0.5871	0.4183	0.4805
Meta-Llama-3-8B	8B	0.8356	0.4454	0.4002	0.8881	0.1757	0.3320	0.2199	0.2087	0.4558	0.3311	0.4292
llama-3-youko-8b	8B	0.8660	0.4902	0.5155	0.8947	0.2127	0.2840	0.2740	0.2180	0.4493	0.2183	0.4423
Llama-3-Swallow-8B-v0.1	8B	0.8945	0.4848	0.5640	0.8947	0.1981	0.4240	0.2758	0.2223	0.4699	0.2890	0.4717

英语任务

模型	大小	OpenBookQA（4-shot，Acc）	TriviaQA（4-shot，EM acc）	HellaSWAG（4-shot，Acc）	SQuAD2.0（4-shot，EM acc）	XWINO（4-shot，Acc）	MMLU（5-shot，Acc）	GSM8K（4-shot，EM acc）	BBH（3-shot，CoT EM Acc）	HumanEval（0-shot，pass@1）	英语平均
Llama-2-7b	7B	0.3720	0.6385	0.5826	0.2911	0.9045	0.4590	0.1266	0.3993	0.1354	0.4343
Swallow-7b-hf	7B	0.3080	0.4921	0.5269	0.2608	0.8847	0.3918	0.0963	0.3531	0.0402	0.3727
Mistral-7B-v0.1	7B	0.3740	0.7030	0.6260	0.3381	0.9067	0.6236	0.3851	0.5597	0.2841	0.5334
Swallow-MS-7b-v0.1	7B	0.3480	0.5995	0.5798	0.3011	0.9015	0.5486	0.2669	0.4916	0.2732	0.4789
Qwen2-7B	7B	0.3740	0.6105	0.6006	0.3623	0.8916	0.7045	0.7748	0.5325	0.4622	0.5903
Meta-Llama-3-8B	8B	0.3760	0.7109	0.6124	0.3356	0.9032	0.6509	0.4936	0.6211	0.3793	0.5648
llama-3-youko-8b	8B	0.3500	0.6252	0.5885	0.3247	0.8959	0.5993	0.3571	0.5704	0.2793	0.5100
Llama-3-Swallow-8B-v0.1	8B	0.3520	0.6563	0.5901	0.3507	0.9006	0.6152	0.4875	0.5936	0.3323	0.5420

评估基准

日语评估基准

我们使用了llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(提交编号 #9b42d41)和Code Generation LM Evaluation Harness(提交编号 #0261c52)。详情如下：

多项选择题回答（JCommonsenseQA [Kurihara等人，2022]）
开放式问题回答（JEMHopQA [Ishii等人，2024]）
开放式问题回答（NIILC [関根，2003]）
机器阅读理解（JSQuAD [Kurihara等人，2022]）
自动摘要（XL-Sum [Hasan等人，2021]）
机器翻译（WMT2020 ja-en [Barrault等人，2020]）
机器翻译（WMT2020 en-ja [Barrault等人，2020]）
数学推理（MGSM [Shi等人，2023]）
学术考试（JMMLU [尹ら，2024]）
代码生成（JHumanEval [佐藤ら，2024]）

英语评估基准

我们使用了Language Model Evaluation Harness(v.0.4.2)和Code Generation LM Evaluation Harness(提交编号 #0261c52)。详情如下：

多项选择题回答（OpenBookQA [Mihaylov等人，2018]）
开放式问题回答（TriviaQA [Joshi等人，2017]）
机器阅读理解（SQuAD2 [Rajpurkar等人，2018]）
常识推理（XWINO [Tikhonov和Ryabinin，2021]）
自然语言推理（HellaSwag [Zellers等人，2019]）
数学推理（GSM8K [Cobbe等人，2021]）
推理（BBH (BIG-Bench-Hard) [Suzgun等人，2023]）
学术考试（MMLU [Hendrycks等人，2021]）
代码生成（HumanEval [Chen等人，2021]）

训练数据集

持续预训练

以下数据集用于持续预训练：

风险与局限

此处发布的模型仍处于我们研发的早期阶段，尚未进行调整以确保输出符合人类意图和安全考虑。

致谢

我们感谢Meta Research以开放许可的方式发布Llama 3，以便他人在此基础上进行开发。

我们的项目得到了日本国立先进工业科学技术研究所的大型生成式人工智能开发支持计划的支持。

许可证

META LLAMA 3社区许可证

作者

以下是团队成员：

如何引用

如果您觉得我们的工作有帮助，请随时引用我们：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

引用文献

@article{llama3modelcard,
    title={Llama 3 Model Card},
    author={AI@Meta},
    year={2024},
    url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}