库名称:transformers
模型名称:shisa-v2-mistral-nemo-12b
许可证:apache-2.0
数据集:
- shisa-ai/shisa-v2-sharegpt
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
语言:
- ja
- en
基础模型:
- mistralai/Mistral-Nemo-Instruct-2407
管道标签:text-generation
Shisa V2
Shisa V2是由Shisa.AI训练的一系列双语(日语/英语)通用聊天模型。这些模型旨在精通日语任务,同时保持强大的英语能力。
自我们最初的Shisa 7B发布以来,开源语言模型的日语基础能力已显著提升。新模型拥有更多日语预训练标记、更高的日语分词器效率,以及整体更优质的日语输出。因此,在Shisa V2中,我们放弃了分词器扩展和昂贵的持续预训练,专注于优化训练后阶段。我们大幅扩展并改进了最初在Shisa 7B模型中开创的合成数据驱动方法,并取得了显著的性能提升。
模型系列概览
Shisa V2系列包含从7B到70B参数规模的多款模型:
所有Shisa V2模型均采用相同的数据集和训练方案,仅根据模型规模调整学习率,并为70B模型修改了全局批量大小。
尽管我们的主要开发和调优工作基于Llama 3.1 8B模型,但在此过程中进行了交叉验证。我们很高兴最终方案展现出稳健的扩展性,在所有评估规模的模型中均提升了日语性能。我们优先发布了各规模类别中最高质量的开源许可证(Apache 2.0和MIT)模型。
性能表现
所有Shisa V2模型相比各自的基础模型均展现出更优的日语输出质量:
模型名称 |
JA平均分 |
EN平均分 |
闲聊平均分 |
ELYZA 100 |
JA MT Bench |
Rakuda |
Tengu |
llm-jp-eval |
shisa-jp-ifeval |
shisa-jp-rp-bench |
shisa-jp-tl-bench |
MixEval |
LiveBench |
IFEval |
EvalPlus |
shisa-ai/shisa-v2-mistral-nemo-12b |
72.83 |
53.33 |
8.46 |
8.38 |
8.79 |
9.06 |
7.63 |
0.58 |
0.31 |
4.55 |
6.39 |
0.39 |
33.4 |
0.74 |
0.68 |
mistralai/Mistral-Nemo-Instruct-2407 |
58.44 |
48.07 |
7.68 |
7.29 |
8.03 |
8.68 |
6.73 |
0.55 |
0.13 |
3.60 |
2.11 |
0.31 |
30.0 |
0.64 |
0.68 |
Shisa V2模型在各自规模类别中表现优异:
许可证 |
模型名称 |
JA平均分 |
EN平均分 |
闲聊平均分 |
ELYZA 100 |
JA MT Bench |
Rakuda |
Tengu |
llm-jp-eval |
shisa-jp-ifeval |
shisa-jp-rp-bench |
shisa-jp-tl-bench |
MixEval |
LiveBench |
IFEval |
EvalPlus |
MIT |
shisa-ai/shisa-v2-unphi4-14b |
75.89 |
60.10 |
8.50 |
8.45 |
8.84 |
8.96 |
7.73 |
0.62 |
0.43 |
4.76 |
6.79 |
0.53 |
40.7 |
0.67 |
0.80 |
Gemma |
google/gemma-3-12b-it |
75.15 |
62.10 |
8.48 |
8.34 |
8.67 |
9.02 |
7.88 |
0.60 |
0.35 |
4.64 |
7.40 |
0.44 |
45.3 |
0.83 |
0.76 |
Apache 2.0 |
shisa-ai/shisa-v2-mistral-nemo-12b |
72.83 |
53.33 |
8.46 |
8.38 |
8.79 |
9.06 |
7.63 |
0.58 |
0.31 |
4.55 |
6.39 |
0.39 |
33.4 |
0.74 |
0.68 |
MIT |
microsoft/phi-4 |
72.47 |
61.14 |
8.48 |
8.49 |
8.65 |
9.11 |
7.68 |
0.58 |
0.35 |
4.55 |
5.62 |
0.52 |
42.1 |
0.69 |
0.81 |
Apache 2.0 |
cyberagent/Mistral-Nemo-Japanese-Instruct-2408 |
71.12 |
48.00 |
8.28 |
8.11 |
8.55 |
9.21 |
7.24 |
0.58 |
0.26 |
4.59 |
6.25 |
0.34 |
28.5 |
0.62 |
0.67 |
Apache 2.0 |
Qwen/Qwen2.5-14B-Instruct |
71.02 |
62.54 |
8.27 |
8.15 |
8.64 |
8.70 |
7.59 |
0.63 |
0.34 |
4.51 |
5.03 |
0.52 |
41.4 |
0.81 |
0.76 |
Apache 2.0 |
mistralai/Mistral-Nemo-Instruct-2407 |
58.44 |
48.07 |
7.68 |
7.29 |
8.03 |
8.68 |
6.73 |
0.55 |
0.13 |
3.60 |
2.11 |
0.31 |
30.0 |
0.64 |
0.68 |
测试说明
日语功能测试使用**shisa-ai/shaberi(基于LightBlue Shaberi评估框架的分支)进行。闲聊评分采用PoLL**(LLM评审团)完成,评审团成员包括:
统计验证表明,这些结果与gpt-4-1106-preview
和人工评审的"黄金标准"评分具有可比性。
对于上下文窗口小于8K标记的模型测试,必要时使用了动态RoPE扩展。所有测试均采用最新版本的vLLM或SGLang完成。
我们开发了自定义的"multieval"框架来自动化模型评估。标准基准包括:
新增日语基准
在模型开发过程中,我们还创建了多项新评估,以衡量模型在重要日语下游任务中的表现:
- shisa-jp-ifeval:受IFEval启发,但专门评估日语语法和语言学的指令遵循能力(封闭形式)
- shisa-jp-rp-bench:基于Aratako的Japanese-RP-Bench,评估日语角色扮演和基于角色/人物的多轮对话表现(LLM评审)
- shisa-jp-tl-bench:测试日英翻译能力(LLM评审,BTL成对比较与逻辑转换评分)
我们相信这些基准将具有普遍实用性,并计划在不久的将来将其开源,以支持日语LLM研究社区。
使用方式
所有Shisa V2模型继承了各自基础模型的聊天模板,并已通过vLLM和SGLang的推理验证。
通过采样器扫描,我们发现模型在大多数设置下都能在各种温度下良好运行。对于翻译任务,建议使用较低温度(0.2)以提高准确性;对于角色扮演和创意任务,较高温度(如1.0)效果更佳。为防止跨语言标记泄漏,建议top_p设为0.9或min_p设为0.1。
这些模型未进行额外的安全对齐,因此将主要继承基础模型的偏见和安全特性。
数据集
我们的监督微调(SFT)阶段数据集包含约36万样本,总计约4.2亿Llama 3标记:
- shisa-ai/shisa-v2-sharegpt
- shisa-ai/rewild-set-deepseek-subset
- shisa-ai/magpie-ultra-set
- shisa-ai/magpie-advanced-questions-set
- shisa-ai/japan-magpie-set
- shisa-ai/shisa-v2-roleplaying-sft
- shisa-ai/translation_expanded_master_set_filtered
- 涉及广泛翻译任务的合成数据集,包括散文、对话和小说
- shisa-ai/shisa-v2-instruction-following-sft
我们的最终DPO混合集包含11.3万样本,总计约1.15亿Llama 3标记:
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- shisa-ai/shisa-v2-roleplaying-dpo
- shisa-ai/translation-no-extra-text-dpo-dataset
- 旨在减少模型在不必要时输出额外解释性翻译文本倾向的DPO集
- shisa-ai/shisa-v2-instruction-following-dpo
- 指令遵循SFT集的DPO变体,以进一步提升指令遵循性能
- shisa-ai/politeness-dpo-set
训练过程
我们训练了200多个模型以实证测试多种变量。除超参数和数据混合测试外,还进行了数据排序、多语言特定排序、课程学习、多阶段训练、各种形式的自对弈、偏好调优以及部分最新RL/可验证奖励技术的测试。
完整讨论超出本文范围,但我们将在shisa-v2 wiki和Shisa.AI网站上发布相关文章。
大部分训练在AWS Sagemaker部署的4节点H100 slurm集群上完成,主要使用Axolotl配合DeepSpeed和Liger Kernels。Phi 4和Llama 3.3 70B版本的Shisa V2使用OpenRLHF训练。训练日志公开在Weights and Biases。
致谢
Shisa V2模型由Leonard Lin和Adam Lensenmayer(Shisa.AI)开发。
计算资源由Ubitus K.K.和经济产业省GENIAC提供。
感谢Meta Llama、微软研究院、Mistral AI和Qwen团队向开源社区提供模型,Unsloth提供Phi-4的llamafied转换,Tulu团队详细的文档和快速响应对我们帮助很大,以及Axolotl团队的Chanvichet Vong在Axolotl Discord中的不懈工作。
我们还要感谢所有开源AI开发者和研究人员——没有他们公开分享的研究、工具和数据集,我们的工作将无法实现。我们希望自己的贡献能进一步支持更广泛的社区。
特别感谢Jon Durbin对Shisa V1的贡献。
更多开发细节和见解,请访问Shisa V2 Github仓库和Shisa.AI网站。
1:根据Llama社区许可协议,基于Llama的模型官方名称为"Llama 3.1 shisa-v2-llama3.1-8b"和"Llama 3.3 shisa-v2-llama3.3-70b"