语言:
- 英文
- 日文
库名称: transformers
流水线标签: 文本生成
许可证:
- llama3.3
- gemma
模型类型: llama
数据集:
- tokyotech-llm/lmsys-chat-1m-synth
- tokyotech-llm/swallow-magpie-ultra-v0.1
- tokyotech-llm/swallow-gemma-magpie-v0.1
- lmsys/lmsys-chat-1m
- argilla/magpie-ultra-v0.1
Llama 3.3 Swallow - 基于Llama构建
Llama 3.3 Swallow是一个大型语言模型(70B),通过对Meta Llama 3.3模型进行持续预训练而构建。Llama 3.3 Swallow在保留原有Llama 3.3英语能力的同时,增强了日语能力。我们使用了约3150亿个标记,这些标记来自大型日语网络语料库(Swallow Corpus Version 2)、日语和英语维基百科文章、数学和编程内容等(参见基础模型的训练数据集部分)进行持续预训练。指令调优模型(Instruct)是通过对专门为日语构建的合成数据进行监督微调(SFT)而构建的。请参阅Swallow模型索引部分以查找其他模型变体。
发布历史
Swallow模型索引

网站https://swallow-llm.github.io/提供了Swallow团队开发的大型语言模型。
模型详情
模型性能
MT-Bench JA
模型 |
编码 |
提取 |
人文 |
数学 |
推理 |
角色扮演 |
科学 |
写作 |
JMT平均 |
Llama 3 70B Instruct |
0.588 |
0.884 |
0.715 |
0.637 |
0.487 |
0.594 |
0.598 |
0.619 |
0.640 |
Llama 3.1 70B Instruct |
0.691 |
0.848 |
0.730 |
0.669 |
0.618 |
0.699 |
0.699 |
0.694 |
0.706 |
Llama 3.3 70B Instruct |
0.707 |
0.865 |
0.757 |
0.720 |
0.635 |
0.773 |
0.706 |
0.733 |
0.737 |
Llama 3 Youko 70B Instruct |
0.607 |
0.894 |
0.834 |
0.609 |
0.673 |
0.790 |
0.764 |
0.829 |
0.750 |
Llama-3.1-70B-Japanese-Instruct-24070 |
0.683 |
0.827 |
0.824 |
0.749 |
0.643 |
0.818 |
0.715 |
0.751 |
0.751 |
Llama 3 heron brain 70B v0.3 |
0.510 |
0.870 |
0.776 |
0.680 |
0.513 |
0.727 |
0.692 |
0.693 |
0.683 |
Llama 3 Swallow 70B Instruct |
0.633 |
0.823 |
0.601 |
0.521 |
0.482 |
0.622 |
0.635 |
0.630 |
0.618 |
Llama 3.1 Swallow 70B Instruct v0.1 |
0.654 |
0.792 |
0.768 |
0.704 |
0.573 |
0.682 |
0.653 |
0.704 |
0.691 |
Llama 3.1 Swallow 70B Instruct v0.3 |
0.678 |
0.820 |
0.867 |
0.776 |
0.570 |
0.816 |
0.769 |
0.852 |
0.769 |
Llama 3.3 Swallow 70B Instruct v0.4 |
0.705 |
0.820 |
0.870 |
0.730 |
0.623 |
0.811 |
0.781 |
0.832 |
0.772 |
Qwen2-72B-Instruct |
0.632 |
0.800 |
0.842 |
0.688 |
0.616 |
0.824 |
0.797 |
0.846 |
0.756 |
Qwen2.5-72B-Instruct |
0.795 |
0.860 |
0.865 |
0.857 |
0.784 |
0.863 |
0.804 |
0.854 |
0.835 |
GPT-3.5 (gpt-3.5-turbo-0125) |
0.693 |
0.789 |
0.773 |
0.665 |
0.462 |
0.728 |
0.644 |
0.775 |
0.691 |
GPT-4o (gpt-4o-2024-08-06) |
0.855 |
0.926 |
0.880 |
0.872 |
0.706 |
0.862 |
0.838 |
0.849 |
0.848 |
GPT-4o-mini (gpt-4o-mini-2024-07-18) |
0.825 |
0.865 |
0.857 |
0.843 |
0.665 |
0.846 |
0.855 |
0.840 |
0.824 |
日语任务
模型 |
JCom. |
JEMHopQA |
NIILC |
JSQuAD |
XL-Sum |
MGSM |
WMT20-en-ja |
WMT20-ja-en |
JMMLU |
JHumanEval |
Ja平均 |
|
4-shot |
4-shot |
4-shot |
4-shot |
1-shot |
4-shot |
4-shot |
4-shot |
5-shot |
0-shot |
|
|
EM准确率 |
Char-F1 |
Char-F1 |
Char-F1 |
ROUGE-2 |
EM准确率 |
BLEU |
BLEU |
EM准确率 |
pass@1 |
|
Llama 3 70B Instruct |
0.940 |
0.615 |
0.557 |
0.913 |
0.191 |
0.716 |
0.269 |
0.234 |
0.680 |
0.662 |
0.578 |
Llama 3.1 70B Instruct |
0.950 |
0.635 |
0.579 |
0.921 |
0.178 |
0.732 |
0.279 |
0.247 |
0.733 |
0.696 |
0.595 |
Llama 3.3 70B Instruct |
0.941 |
0.640 |
0.570 |
0.893 |
0.179 |
0.784 |
0.278 |
0.243 |
0.735 |
0.744 |
0.601 |
Llama 3 Youko 70B Instruct |
0.952 |
0.625 |
0.584 |
0.921 |
0.198 |
0.720 |
0.263 |
0.226 |
0.718 |
0.610 |
|