库名称: transformers
模型名称: shisa-v2-llama3.3-70b
许可证: llama3.3
数据集:
- shisa-ai/shisa-v2-sharegpt
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
语言:
- 日语
- 英语
基础模型:
- meta-llama/Llama-3.3-70B-Instruct
管道标签: 文本生成
Shisa V2
Shisa V2是由Shisa.AI训练的一系列双语(日语/英语)通用聊天模型。这些模型旨在擅长日语任务的同时保持强大的英语能力。
自我们最初发布Shisa 7B以来,开源权重语言模型的日语基础能力已显著提升。新模型拥有更多日语预训练token、更高的JA tokenizer效率,以及整体更优质的日语输出。因此,在Shisa V2中,我们既没有扩展tokenizer,也没有进行昂贵的持续预训练,而是完全专注于优化训练后阶段。我们大幅扩展并完善了最初在Shisa 7B模型中开创的合成数据驱动方法,并取得了显著的性能提升。
模型系列概览
Shisa V2系列包含从7B到70B参数规模不等的多种模型:
所有Shisa V2模型都使用相同的数据集和训练方案进行训练,仅根据模型规模调整学习率,并为70B模型修改了全局批量大小。
虽然我们大部分的开发和调优工作是在Llama 3.1 8B模型上完成的,但在此过程中我们也进行了交叉验证,很高兴我们的最终方案展现了稳健的扩展性,在所有评估的模型规模上都提升了日语性能。我们优先发布了每个规模级别中最高质量的开源许可证(Apache 2.0和MIT)模型。
性能表现
所有Shisa V2模型相比各自的基础模型都展现了改进的日语输出质量:
模型 |
JA平均分 |
EN平均分 |
Shaberi平均分 |
ELYZA 100 |
JA MT Bench |
Rakuda |
Tengu |
llm-jp-eval |
shisa-jp-ifeval |
shisa-jp-rp-bench |
shisa-jp-tl-bench |
MixEval |
LiveBench |
IFEval |
EvalPlus |
shisa-ai/shisa-v2-llama3.3-70b |
79.72 |
67.71 |
8.86 |
8.98 |
9.03 |
9.32 |
8.11 |
0.63 |
0.42 |
4.72 |
8.37 |
0.59 |
48.7 |
0.84 |
0.79 |
meta-llama/Llama-3.3-70B-Instruct |
72.75 |
71.48 |
8.28 |
8.09 |
8.76 |
8.88 |
7.40 |
0.66 |
0.35 |
4.65 |
5.75 |
0.64 |
51.8 |
0.92 |
0.79 |
Shisa V2模型在各自规模级别的模型中表现优异。
许可证 |
模型 |
JA平均分 |
EN平均分 |
Shaberi平均分 |
ELYZA 100 |
JA MT Bench |
Rakuda |
Tengu |
llm-jp-eval |
shisa-jp-ifeval |
shisa-jp-rp-bench |
shisa-jp-tl-bench |
MixEval |
LiveBench |
IFEval |
EvalPlus |
Llama 3.3 |
shisa-ai/shisa-v2-llama3.3-70b |
79.72 |
67.71 |
8.86 |
8.98 |
9.03 |
9.32 |
8.11 |
0.63 |
0.42 |
4.72 |
8.37 |
0.59 |
48.7 |
0.84 |
0.79 |
Qwen |
Qwen/Qwen2.5-72B-Instruct |
77.57 |
68.12 |
8.81 |
8.97 |
8.83 |
9.23 |
8.22 |
0.67 |
0.47 |
4.52 |
6.39 |
0.54 |
53.8 |
0.86 |
0.79 |
Llama 3.3 |
tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4 |
75.59 |
61.03 |
8.55 |
8.34 |
8.81 |
9.15 |
7.90 |
0.66 |
0.39 |
4.55 |
6.63 |
0.50 |
41.6 |
0.80 |
0.73 |
Llama 3.1 |
allenai/Llama-3.1-Tulu-3-70B |
74.64 |
64.48 |
8.60 |
8.31 |
8.84 |
9.36 |
7.91 |
0.65 |
0.41 |
4.70 |
5.31 |
0.54 |
42.4 |
0.86 |
0.76 |
Llama 3.1 |
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 |
73.67 |
64.47 |
8.68 |
8.93 |
8.61 |
9.14 |
8.06 |
0.63 |
0.36 |
4.05 |
6.25 |
0.56 |
43.6 |
0.85 |
0.73 |
Llama 3.3 |
meta-llama/Llama-3.3-70B-Instruct |
72.75 |
71.48 |
8.28 |
8.09 |
8.76 |
8.88 |
7.40 |
0.66 |
0.35 |
4.65 |
5.75 |
0.64 |
51.8 |
0.92 |
0.79 |
Llama 3 |
shisa-ai/shisa-v1-llama3-70b |
60.63 |
52.96 |
7.73 |
7.33 |
8.06 |
8.88 |
6.65 |
0.26 |
0.24 |
4.51 |
3.51 |
0.56 |
27.4 |
0.65 |
0.63 |
测试说明
日语功能测试使用了shisa-ai/shaberi分叉的LightBlue Shaberi评估框架。Shaberi评分由以下PoLL(LLM评审团)执行:
结果经过统计验证,与gpt-4-1106-preview
和人工评审的"黄金标准"评分具有可比性。
在测试上下文窗口小于8K token的模型时,根据需要使用了动态RoPE扩展。所有测试均使用最新版本的vLLM或SGLang进行。
我们开发了自定义的"multieval"框架来自动化模型评估。标准基准包括:
新日语基准
在模型开发过程中,我们还创建了几个新的评估标准,以帮助我们衡量重要日语下游任务的性能:
- shisa-jp-ifeval:受IFEval启发,但评估特定于日语语法和语言学的指令遵循能力(封闭形式)
- shisa-jp-rp-bench:基于Aratako的Japanese-RP-Bench,评估日语角色扮演和基于角色/人物的多轮对话性能(LLM评判)
- shisa-jp-tl-bench:测试日语-英语翻译能力(LLM评判,BTL成对比较,采用逻辑转换评分)
我们相信这些基准将具有普遍实用性,并计划在不久的将来将其开源,以支持日语LLM研究社区。
使用方式
所有Shisa V2模型都继承了各自基础模型的[聊天模板](https://huggingface.co/docs