Llama 3 Swallow 8B V0.1
基于Meta Llama 3构建的日语增强大语言模型,通过持续预训练和指令微调提升日语处理能力
下载量 2,230
发布时间 : 5/20/2024
模型简介
Llama3 Swallow是基于Meta Llama 3系列模型进行日语数据增强训练的变体,包含8B和70B两种参数规模,支持英语和日语文本生成任务
模型特点
日语能力增强
通过大量日语数据持续预训练,显著提升日语任务表现
双语支持
同时支持英语和日语处理,在双语任务中表现优异
指令优化版本
提供经过监督微调(SFT)和聊天向量技术优化的指令版本
模型能力
日语文本生成
英语文本生成
机器翻译
问答系统
代码生成
数学推理
摘要生成
使用案例
自然语言处理
日语问答系统
构建面向日语用户的智能问答应用
在JCommonsenseQA基准上达到89.45%准确率
英日机器翻译
实现高质量英日双向翻译
WMT20英日翻译BLEU得分0.2758
教育应用
日语学习助手
辅助日语学习者进行语言练习和知识查询
🚀 Llama3 Swallow - 基于Meta Llama 3构建
我们的Swallow模型在Llama 3家族的基础上进行了持续预训练,主要增加了日语语言数据。指令版本使用了监督微调(SFT)和聊天向量。其他模型的链接可在索引中找到。
🚀 快速开始
本仓库提供了由Swallow-LLM开发的大语言模型。你可以阅读我们的博客文章了解更多信息。
✨ 主要特性
- 基于Llama 3家族进行持续预训练,增加了日语语言数据。
- 指令版本使用了监督微调(SFT)和聊天向量。
- 在多种日语和英语任务上表现出色。
📚 详细文档
模型发布更新
我们很高兴分享最新模型的发布计划:
- 2024年7月1日:发布了Llama-3-Swallow-8B-v0.1、Llama-3-Swallow-8B-Instruct-v0.1、Llama-3-Swallow-70B-v0.1和Llama-3-Swallow-70B-Instruct-v0.1。
Swallow模型索引
模型 | Llama-3-Swallow | Llama3 Swallow Instruct |
---|---|---|
8B | 链接 | 链接 |
70B | 链接 | 链接 |
模型详情
属性 | 详情 |
---|---|
模型类型 | 请参考Llama 3 MODEL_CARD了解模型架构详情。 |
支持语言 | 日语、英语 |
库 | Megatron-LM |
分词器 | 请参考Llama 3博客了解分词器详情。 |
联系方式 | swallow[at]nlp.c.titech.ac.jp |
模型性能
日语任务
模型 | 大小 | JCom.(4-shot,EM acc) | JEMHopQA(4-shot,Char-F1) | NIILC(4-shot,Char-F1) | JSQuAD(4-shot,Char-F1) | XL-Sum(1-shot,ROUGE-2) | MGSM(4-shot,EM acc) | WMT20-en-ja(4-shot,BLEU) | WMT20-ja-en(4-shot,BLEU) | JMMLU(5-shot,EM acc) | JHumanEval(0-shot,pass@1) | 日语平均 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Llama-2-7b | 7B | 0.2618 | 0.4914 | 0.3301 | 0.8001 | 0.1742 | 0.0560 | 0.1764 | 0.1742 | 0.2824 | 0.1250 | 0.2872 |
Swallow-7b-hf | 7B | 0.4888 | 0.5044 | 0.5925 | 0.8424 | 0.1823 | 0.1240 | 0.2505 | 0.1482 | 0.3219 | 0.0183 | 0.3473 |
Mistral-7B-v0.1 | 7B | 0.7471 | 0.4482 | 0.2691 | 0.8588 | 0.2026 | 0.1880 | 0.1430 | 0.1738 | 0.4213 | 0.2598 | 0.3712 |
Swallow-MS-7b-v0.1 | 7B | 0.8758 | 0.5153 | 0.5647 | 0.8762 | 0.1993 | 0.2400 | 0.2507 | 0.1667 | 0.4527 | 0.2335 | 0.4375 |
Qwen2-7B | 7B | 0.8776 | 0.4627 | 0.3766 | 0.8984 | 0.1716 | 0.5480 | 0.2080 | 0.1949 | 0.5871 | 0.4183 | 0.4805 |
Meta-Llama-3-8B | 8B | 0.8356 | 0.4454 | 0.4002 | 0.8881 | 0.1757 | 0.3320 | 0.2199 | 0.2087 | 0.4558 | 0.3311 | 0.4292 |
llama-3-youko-8b | 8B | 0.8660 | 0.4902 | 0.5155 | 0.8947 | 0.2127 | 0.2840 | 0.2740 | 0.2180 | 0.4493 | 0.2183 | 0.4423 |
Llama-3-Swallow-8B-v0.1 | 8B | 0.8945 | 0.4848 | 0.5640 | 0.8947 | 0.1981 | 0.4240 | 0.2758 | 0.2223 | 0.4699 | 0.2890 | 0.4717 |
英语任务
模型 | 大小 | OpenBookQA(4-shot,Acc) | TriviaQA(4-shot,EM acc) | HellaSWAG(4-shot,Acc) | SQuAD2.0(4-shot,EM acc) | XWINO(4-shot,Acc) | MMLU(5-shot,Acc) | GSM8K(4-shot,EM acc) | BBH(3-shot,CoT EM Acc) | HumanEval(0-shot,pass@1) | 英语平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
Llama-2-7b | 7B | 0.3720 | 0.6385 | 0.5826 | 0.2911 | 0.9045 | 0.4590 | 0.1266 | 0.3993 | 0.1354 | 0.4343 |
Swallow-7b-hf | 7B | 0.3080 | 0.4921 | 0.5269 | 0.2608 | 0.8847 | 0.3918 | 0.0963 | 0.3531 | 0.0402 | 0.3727 |
Mistral-7B-v0.1 | 7B | 0.3740 | 0.7030 | 0.6260 | 0.3381 | 0.9067 | 0.6236 | 0.3851 | 0.5597 | 0.2841 | 0.5334 |
Swallow-MS-7b-v0.1 | 7B | 0.3480 | 0.5995 | 0.5798 | 0.3011 | 0.9015 | 0.5486 | 0.2669 | 0.4916 | 0.2732 | 0.4789 |
Qwen2-7B | 7B | 0.3740 | 0.6105 | 0.6006 | 0.3623 | 0.8916 | 0.7045 | 0.7748 | 0.5325 | 0.4622 | 0.5903 |
Meta-Llama-3-8B | 8B | 0.3760 | 0.7109 | 0.6124 | 0.3356 | 0.9032 | 0.6509 | 0.4936 | 0.6211 | 0.3793 | 0.5648 |
llama-3-youko-8b | 8B | 0.3500 | 0.6252 | 0.5885 | 0.3247 | 0.8959 | 0.5993 | 0.3571 | 0.5704 | 0.2793 | 0.5100 |
Llama-3-Swallow-8B-v0.1 | 8B | 0.3520 | 0.6563 | 0.5901 | 0.3507 | 0.9006 | 0.6152 | 0.4875 | 0.5936 | 0.3323 | 0.5420 |
评估基准
日语评估基准
我们使用了llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(提交编号 #9b42d41)和Code Generation LM Evaluation Harness(提交编号 #0261c52)。详情如下:
- 多项选择题回答(JCommonsenseQA [Kurihara等人,2022])
- 开放式问题回答(JEMHopQA [Ishii等人,2024])
- 开放式问题回答(NIILC [関根,2003])
- 机器阅读理解(JSQuAD [Kurihara等人,2022])
- 自动摘要(XL-Sum [Hasan等人,2021])
- 机器翻译(WMT2020 ja-en [Barrault等人,2020])
- 机器翻译(WMT2020 en-ja [Barrault等人,2020])
- 数学推理(MGSM [Shi等人,2023])
- 学术考试(JMMLU [尹ら,2024])
- 代码生成(JHumanEval [佐藤ら,2024])
英语评估基准
我们使用了Language Model Evaluation Harness(v.0.4.2)和Code Generation LM Evaluation Harness(提交编号 #0261c52)。详情如下:
- 多项选择题回答(OpenBookQA [Mihaylov等人,2018])
- 开放式问题回答(TriviaQA [Joshi等人,2017])
- 机器阅读理解(SQuAD2 [Rajpurkar等人,2018])
- 常识推理(XWINO [Tikhonov和Ryabinin,2021])
- 自然语言推理(HellaSwag [Zellers等人,2019])
- 数学推理(GSM8K [Cobbe等人,2021])
- 推理(BBH (BIG-Bench-Hard) [Suzgun等人,2023])
- 学术考试(MMLU [Hendrycks等人,2021])
- 代码生成(HumanEval [Chen等人,2021])
训练数据集
持续预训练
以下数据集用于持续预训练:
风险与局限
此处发布的模型仍处于我们研发的早期阶段,尚未进行调整以确保输出符合人类意图和安全考虑。
致谢
我们感谢Meta Research以开放许可的方式发布Llama 3,以便他人在此基础上进行开发。
我们的项目得到了日本国立先进工业科学技术研究所的大型生成式人工智能开发支持计划的支持。
许可证
作者
以下是团队成员:
- 来自东京工业大学冈崎实验室的成员:
- 来自东京工业大学横田实验室的成员:
- 来自日本产业技术综合研究所人工智能研究中心的成员:
如何引用
如果您觉得我们的工作有帮助,请随时引用我们:
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
引用文献
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文