库名称:transformers
模型名称:shisa-v2-unphi4-14b
许可证:apache-2.0
数据集:
- shisa-ai/shisa-v2-sharegpt
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
语言:
- 日语(ja)
- 英语(en)
基础模型:
- unsloth/phi-4
任务标签:文本生成
Shisa V2
Shisa V2是由Shisa.AI训练的一系列双语(日语/英语)通用聊天模型。这些模型旨在精通日语任务的同时,保持强大的英语能力。
自我们最初发布Shisa 7B以来,开源权重语言模型的日语基础能力已显著提升。新模型拥有更多日语预训练标记、更高的日语分词器效率,以及整体更优质的日语输出。因此,在Shisa V2中,我们放弃了分词器扩展和昂贵的持续预训练,完全专注于优化后训练阶段。我们大幅扩展并改进了最初在Shisa 7B模型中开创的合成数据驱动方法,并取得了显著的性能提升。
模型系列概览
Shisa V2系列包含从7B到70B参数规模的多款模型:
所有Shisa V2模型均使用相同的数据集和训练方案,仅根据模型规模调整学习率,并为70B模型修改了全局批量大小。
尽管我们的主要开发和调优工作基于Llama 3.1 8B模型,但在此过程中进行了交叉验证。我们很高兴最终方案展现出稳健的扩展性,在所有评估的模型规模上均提升了日语性能。我们优先发布了各规模类别中最高质量的开源许可证(Apache 2.0和MIT)模型。
性能表现
所有Shisa V2模型相比各自的基础模型均展现出日语输出质量的提升:
注: 我们实际从unsloth/phi-4(Unsloth对microsoft/phi-4的llamafied版本)进行调优,这支持Liger Kernel以实现更快训练。基准测试结果在误差范围内,因此为简化表述,我们直接使用microsoft/phi-4的模型结果。
模型名称 |
日语平均分 |
英语平均分 |
会话平均分 |
ELYZA 100 |
日语MT Bench |
Rakuda |
Tengu |
llm-jp-eval |
shisa-jp-ifeval |
shisa-jp-rp-bench |
shisa-jp-tl-bench |
MixEval |
LiveBench |
IFEval |
EvalPlus |
shisa-ai/shisa-v2-unphi4-14b |
75.89 |
60.10 |
8.50 |
8.45 |
8.84 |
8.96 |
7.73 |
0.62 |
0.43 |
4.76 |
6.79 |
0.53 |
40.7 |
0.67 |
0.80 |
microsoft/phi-4 |
72.47 |
61.14 |
8.48 |
8.49 |
8.65 |
9.11 |
7.68 |
0.58 |
0.35 |
4.55 |
5.62 |
0.52 |
42.1 |
0.69 |
0.81 |
Shisa V2模型在同类规模模型中表现优异:
许可证 |
模型 |
日语平均分 |
英语平均分 |
会话平均分 |
ELYZA 100 |
日语MT Bench |
Rakuda |
Tengu |
llm-jp-eval |
shisa-jp-ifeval |
shisa-jp-rp-bench |
shisa-jp-tl-bench |
MixEval |
LiveBench |
IFEval |
EvalPlus |
MIT |
shisa-ai/shisa-v2-unphi4-14b |
75.89 |
60.10 |
8.50 |
8.45 |
8.84 |
8.96 |
7.73 |
0.62 |
0.43 |
4.76 |
6.79 |
0.53 |
40.7 |
0.67 |
0.80 |
Gemma |
google/gemma-3-12b-it |
75.15 |
62.10 |
8.48 |
8.34 |
8.67 |
9.02 |
7.88 |
0.60 |
0.35 |
4.64 |
7.40 |
0.44 |
45.3 |
0.83 |
0.76 |
Apache 2.0 |
shisa-ai/shisa-v2-mistral-nemo-12b |
72.83 |
53.33 |
8.46 |
8.38 |
8.79 |
9.06 |
7.63 |
0.58 |
0.31 |
4.55 |
6.39 |
0.39 |
33.4 |
0.74 |
0.68 |
MIT |
microsoft/phi-4 |
72.47 |
61.14 |
8.48 |
8.49 |
8.65 |
9.11 |
7.68 |
0.58 |
0.35 |
4.55 |
5.62 |
0.52 |
42.1 |
0.69 |
0.81 |
Apache 2.0 |
cyberagent/Mistral-Nemo-Japanese-Instruct-2408 |
71.12 |
48.00 |
8.28 |
8.11 |
8.55 |
9.21 |
7.24 |
0.58 |
0.26 |
4.59 |
6.25 |
0.34 |
28.5 |
0.62 |
0.67 |
Apache 2.0 |
Qwen/Qwen2.5-14B-Instruct |
71.02 |
62.54 |
8.27 |
8.15 |
8.64 |
8.70 |
7.59 |
0.63 |
0.34 |
4.51 |
5.03 |
0.52 |
41.4 |
0.81 |
0.76 |
Apache 2.0 |
mistralai/Mistral-Nemo-Instruct-2407 |
58.44 |
48.07 |
7.68 |
7.29 |
8.03 |
8.68 |
6.73 |
0.55 |
0.13 |
3.60 |
2.11 |
0.31 |
30.0 |
0.64 |
0.68 |
测试说明
日语功能测试使用shisa-ai/shaberi(LightBlue Shaberi评估框架的分叉版本)进行。会话评分采用PoLL(LLM评审团)完成,评审团包括:
统计验证表明,结果与gpt-4-1106-preview
和人工评审的"黄金标准"评分具有可比性。
对于上下文窗口小于8K标记的模型测试,必要时使用了动态RoPE扩展。所有测试均采用最新版本的vLLM或SGLang完成。
我们开发了自定义的"multieval"框架来自动化模型评估。标准基准包括: