模型简介
模型特点
模型能力
使用案例
🚀 Shisa V2
Shisa V2是由Shisa.AI训练的一系列日英双语(JA/EN)通用聊天模型。这些模型旨在在日语任务中表现出色,同时保持强大的英语能力。
自我们最初发布Shisa 7B以来,开源权重语言模型的日语基础能力有了显著提升。新模型拥有更多的日语预训练标记、更高的日语分词器效率,并且整体日语输出质量更好。因此,对于Shisa V2,我们放弃了分词器扩展和成本高昂的持续预训练,而是专注于优化后训练。我们大幅扩展并完善了最初在Shisa 7B模型中开创的合成数据驱动方法,并取得了显著的性能提升。
🚀 快速开始
Shisa V2模型继承了各自基础模型的聊天模板,并已使用vLLM和SGLang进行了测试和验证,以确保能够进行正确的推理。
在运行采样器扫描时,我们发现这些模型在大多数设置下,在各种温度参数下都能很好地运行。具体来说,对于翻译任务,我们建议使用较低的温度(0.2)以提高准确性。对于角色扮演和创意任务,较高的温度(例如1.0)似乎能产生较好的结果。为了防止跨语言标记泄漏,我们建议使用0.9的top_p或0.1的min_p。
⚠️ 重要提示
这些模型没有进行额外的安全对齐,因此它们在很大程度上会继承基础模型的偏差和安全特性。
💡 使用建议
对于不同的任务,可以根据上述建议调整温度参数和top_p或min_p的值,以获得更好的效果。
✨ 主要特性
- 双语能力:具备出色的日语和英语处理能力,能够在两种语言之间灵活切换。
- 性能提升:与各自的基础模型相比,Shisa V2模型在日语输出质量上有显著提高。
- 数据驱动:采用合成数据驱动的方法进行训练,提高了模型的性能和泛化能力。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
文档未提供代码示例,故跳过该章节。
📚 详细文档
模型家族概述
Shisa V2家族包含一系列参数规模从7B到70B的模型:
许可证 | 模型 | 参数数量 | 上下文长度 | 日语平均得分 | 英语平均得分 |
---|---|---|---|---|---|
Apache 2.0 | shisa-v2-qwen2.5-7b | 7B | 128K/8K | 71.06 | 54.86 |
Llama 3.1 | shisa-v2-llama3.1-8b1 | 8B | 128K | 70.83 | 54.75 |
Apache 2.0 | shisa-v2-mistral-nemo-12b | 12B | 128K | 72.83 | 53.33 |
MIT | shisa-v2-unphi4-14b | 14B | 16K | 75.89 | 60.10 |
Apache 2.0 | shisa-v2-qwen2.5-32b | 32B | 128K/8K | 76.97 | 67.41 |
Llama 3.3 | shisa-v2-llama3.3-70b1 | 70B | 128K | 79.72 | 67.71 |
这些Shisa V2模型均使用相同的数据集和训练配方进行训练,除了根据模型大小调整学习率,并为70B模型修改全局批量大小。
虽然我们的大部分开发和调优工作是在Llama 3.1 8B模型上进行的,但在这个过程中我们也进行了一些交叉验证。我们很高兴地看到,最终的训练配方在所有评估的模型大小上都表现出了强大的扩展性,提高了日语语言性能。我们优先发布了每个类别中质量最高的开源许可(Apache 2.0和MIT)模型。
性能
所有Shisa V2模型与各自的基础模型相比,在日语输出质量上都有显著提高:
| 模型 | 日语平均得分 | 英语平均得分 | Shaberi平均得分 | ELYZA 100得分 | 日语MT Bench得分 | Rakuda得分 | Tengu得分 | llm-jp-eval得分 | shisa-jp-ifeval得分 | shisa-jp-rp-bench得分 | shisa-jp-tl-bench得分 | MixEval得分 | LiveBench得分 | IFEval得分 | EvalPlus得分 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | shisa-ai/shisa-v2-llama3.3-70b | 79.72 | 67.71 | 8.86 | 8.98 | 9.03 | 9.32 | 8.11 | 0.63 | 0.42 | 4.72 | 8.37 | 0.59 | 48.7 | 0.84 | 0.79 | | meta-llama/Llama-3.3-70B-Instruct | 72.75 | 71.48 | 8.28 | 8.09 | 8.76 | 8.88 | 7.40 | 0.66 | 0.35 | 4.65 | 5.75 | 0.64 | 51.8 | 0.92 | 0.79 |
Shisa V2模型在各自的参数规模类别中与其他模型相比表现出色:
许可证 | 模型 | 日语平均得分 | 英语平均得分 | Shaberi平均得分 | ELYZA 100得分 | 日语MT Bench得分 | Rakuda得分 | Tengu得分 | llm-jp-eval得分 | shisa-jp-ifeval得分 | shisa-jp-rp-bench得分 | shisa-jp-tl-bench得分 | MixEval得分 | LiveBench得分 | IFEval得分 | EvalPlus得分 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Llama 3.3 | shisa-ai/shisa-v2-llama3.3-70b | 79.72 | 67.71 | 8.86 | 8.98 | 9.03 | 9.32 | 8.11 | 0.63 | 0.42 | 4.72 | 8.37 | 0.59 | 48.7 | 0.84 | 0.79 |
Qwen | Qwen/Qwen2.5-72B-Instruct | 77.57 | 68.12 | 8.81 | 8.97 | 8.83 | 9.23 | 8.22 | 0.67 | 0.47 | 4.52 | 6.39 | 0.54 | 53.8 | 0.86 | 0.79 |
Llama 3.3 | tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4 | 75.59 | 61.03 | 8.55 | 8.34 | 8.81 | 9.15 | 7.90 | 0.66 | 0.39 | 4.55 | 6.63 | 0.50 | 41.6 | 0.80 | 0.73 |
Llama 3.1 | allenai/Llama-3.1-Tulu-3-70B | 74.64 | 64.48 | 8.60 | 8.31 | 8.84 | 9.36 | 7.91 | 0.65 | 0.41 | 4.70 | 5.31 | 0.54 | 42.4 | 0.86 | 0.76 |
Llama 3.1 | cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 | 73.67 | 64.47 | 8.68 | 8.93 | 8.61 | 9.14 | 8.06 | 0.63 | 0.36 | 4.05 | 6.25 | 0.56 | 43.6 | 0.85 | 0.73 |
Llama 3.3 | meta-llama/Llama-3.3-70B-Instruct | 72.75 | 71.48 | 8.28 | 8.09 | 8.76 | 8.88 | 7.40 | 0.66 | 0.35 | 4.65 | 5.75 | 0.64 | 51.8 | 0.92 | 0.79 |
Llama 3 | shisa-ai/shisa-v1-llama3-70b | 60.63 | 52.96 | 7.73 | 7.33 | 8.06 | 8.88 | 6.65 | 0.26 | 0.24 | 4.51 | 3.51 | 0.56 | 27.4 | 0.65 | 0.63 |
测试说明
日语功能测试使用了LightBlue Shaberi评估工具的**shisa-ai/shaberi分支。Shaberi评级由一个由以下模型组成的PoLL**(大语言模型评审团)进行:
测试结果经过统计验证,与gpt-4-1106-preview
和人工评审的“黄金标准”评级具有可比性。
在测试上下文窗口小于8K标记的模型时,必要时使用了动态RoPE扩展。所有测试均使用最新版本的vLLM或SGLang进行。
我们开发了一个自定义的“multieval”工具来自动化模型评估。标准基准测试包括:
- ELYZA Tasks 100
- JA MT-Bench (数据集)
- Rakuda
- Tengu Bench
- llm-jp-eval (v1.4.1)
- MixEval
- LiveBench (2024-11-25)
- IFEval (Lighteval)
- EvalPlus
新的日语基准测试
在模型开发过程中,我们还创建了几个新的评估指标,以帮助我们衡量在重要的日语下游任务上的性能:
- shisa-jp-ifeval:受IFEval启发,但专门评估日语语法和语言学方面的指令遵循能力(封闭式)。
- shisa-jp-rp-bench:基于Aratako的Japanese-RP-Bench,评估日语角色扮演和基于角色/人物的多轮对话性能(大语言模型评审)。
- shisa-jp-tl-bench:测试日英翻译能力(大语言模型评审,采用BTL成对比较和逻辑变换评分)。
我们相信这些基准测试将具有普遍实用性,并计划在不久的将来将其开源,以支持日语大语言模型研究社区。
数据集
监督微调(SFT)阶段数据集
该数据集包含约360K个样本,总计约420M Llama 3标记:
- shisa-ai/shisa-v2-sharegpt
- 这是原始Shisa V1 augmxnt/ultra-orca-boros-en-ja-v1数据集的过滤、重新生成和重新采样版本。
- 这是我们Shisa V2训练的核心数据集,事实证明它是一个非常强大的数据集,性能优于所有现有的混合/附加数据集(Tulu、Olmo、Rewild、各种Magpie集等)。如果您需要一个日英数据集,我们认为这个新版本是目前可用的最佳数据集之一。
- shisa-ai/rewild-set-deepseek-subset
- Rewild (WildChat)提示的过滤版本,翻译成日语,并由DeepSeek-V3-0324生成响应。
- shisa-ai/magpie-ultra-set
- 基于argilla/magpie-ultra-v1.0的日语生成数据。
- shisa-ai/magpie-advanced-questions-set
- Magpie生成的关于各种学术领域高级大学主题的问题。
- shisa-ai/japan-magpie-set
- Magpie生成的关于日本经济、历史以及文化和商业实践的问题。
- shisa-ai/shisa-v2-roleplaying-sft
- 合成生成的角色扮演数据,包含各种角色、场景和类型。
- shisa-ai/translation_expanded_master_set_filtered
- 一个涉及广泛翻译任务的合成数据集,包括论文、对话和小说。
- shisa-ai/shisa-v2-instruction-following-sft
- 基于(Aratako/Magpie-Tanuki-8B-annotated-96k)提示和一系列指令遵循约束的指令遵循数据集。
最终DPO混合数据集
该数据集包含113K个样本,总计约115M Llama 3标记:
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- 这是princeton-nlp/gemma2-ultrafeedback-armorm的一个版本,其中
chosen
响应由DeepSeek-V3-0324重新生成。 - 令人惊讶的是,我们发现仅使用这个相对较小的英语DPO对齐集的性能优于日英DPO集,也优于像Tulu 3偏好混合这样大得多的数据集。
- 这是princeton-nlp/gemma2-ultrafeedback-armorm的一个版本,其中
- shisa-ai/shisa-v2-roleplaying-dpo
- 角色扮演SFT集的DPO变体,使用UltraFeedback风格的评级系统。
- shisa-ai/translation-no-extra-text-dpo-dataset
- 一个旨在减少模型在不需要时输出额外翻译解释文本倾向的DPO集。
- shisa-ai/shisa-v2-instruction-following-dpo
- 指令遵循SFT集的DPO变体,以进一步提高指令遵循性能。
- shisa-ai/politeness-dpo-set
- 一个用于更好控制日语响应说话风格的数据集。
训练
我们训练了超过200个模型,以实证测试各种变量。除了超参数和数据混合测试外,我们还对数据排序、多语言特定排序、课程学习、多阶段训练、各种形式的自我博弈、偏好调整以及一些最新的强化学习/可验证奖励技术进行了大量测试。
这里无法详细讨论所有的训练经验,但我们将在shisa-v2 wiki和Shisa.AI网站上更新相关的详细文章。
我们的大部分训练是在一个小型的AWS Sagemaker部署的4节点H100 Slurm集群上进行的。训练主要使用Axolotl,结合DeepSpeed和Liger Kernels。Shisa V2的Phi 4和Llama 3.3 70B版本使用OpenRLHF进行训练。我们的训练日志可以在Weights and Biases上公开获取。
致谢
Shisa V2模型由Leonard Lin和Adam Lensenmayer (Shisa.AI)开发。
计算资源由Ubitus K.K.和METI GENIAC提供。
感谢Meta Llama、Microsoft Research、Mistral AI和Qwen Team向开源社区提供他们的模型;感谢Unsloth提供的Phi-4的Llama化转换;感谢Tulu团队,他们详细的文章和对我们问题的快速响应非常有帮助;感谢Axolotl团队的Chanvichet Vong在Axolotl Discord上的不懈努力。
我们还要感谢所有开源AI开发者和研究人员,如果没有他们公开分享的研究、工具和数据集,我们的工作将无法完成。我们希望自己的贡献能够进一步支持更广泛的社区。
特别感谢Jon Durbin在Shisa V1上的工作。
有关我们开发和见解的更多详细信息,请访问Shisa V2 Github仓库和Shisa.AI网站。
1: 根据Llama社区许可协议,基于Llama的模型的官方名称为“Llama 3.1 shisa-v2-llama3.1-8b”和“Llama 3.3 shisa-v2-llama3.3-70b”
🔧 技术细节
文档未提供足够的技术实现细节(具体技术说明少于50字),故跳过该章节。
📄 许可证
该模型使用llama3.3
许可证。



