库名称: transformers
模型名称: shisa-v2-qwen2.5-7b
许可证: apache-2.0
数据集:
- shisa-ai/shisa-v2-sharegpt
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
语言:
- 日语
- 英语
基础模型:
- Qwen/Qwen2.5-7B-Instruct
流水线标签: 文本生成
Shisa V2 双语大模型
Shisa V2是由Shisa.AI研发的日英双语(JA/EN)通用对话模型系列。这些模型在保持强大英语能力的同时,专注于提升日语任务表现。
相较于初代Shisa 7B,当前开源模型的日语基础能力已有显著提升——新模型拥有更多日语预训练token、更高的日语分词效率以及更优质的日语输出质量。因此Shisa V2系列放弃了分词器扩展与昂贵的持续预训练,全力优化训练后阶段。我们大幅扩展并改进了初代模型的合成数据驱动方法,实现了显著的性能提升。
模型系列概览
Shisa V2系列包含7B至70B参数规模的多种模型:
所有Shisa V2模型采用相同数据集和训练方案,仅根据模型规模调整学习率,并为70B模型修改全局批量大小。虽然主要基于Llama 3.1 8B模型进行开发调优,但验证表明最终方案具有优秀的扩展性,在所有评估规模上均提升了日语表现。我们优先发布了各参数级别中最高质量的开源许可(Apache 2.0和MIT)模型。
性能表现
所有Shisa V2模型相较基础模型均展现出更优的日语输出质量:
模型名称 |
日语均分 |
英语均分 |
会话均分 |
ELYZA100 |
日MT Bench |
Rakuda |
Tengu |
llm-jp评测 |
指令遵循 |
角色扮演 |
翻译 |
MixEval |
LiveBench |
IFEval |
EvalPlus |
shisa-v2-qwen2.5-7b |
71.06 |
54.86 |
8.21 |
7.81 |
8.49 |
8.91 |
7.62 |
0.59 |
0.32 |
4.49 |
5.98 |
0.44 |
32.9 |
0.70 |
0.73 |
Qwen2.5-7B-Instruct |
65.30 |
58.11 |
8.03 |
7.81 |
8.09 |
8.68 |
7.53 |
0.57 |
0.29 |
4.15 |
3.29 |
0.44 |
33.9 |
0.76 |
0.79 |
Shisa V2模型在同规模模型中表现优异。作为参考,表格还包含近期发布的shisa-v2-llama3.1-8b-preview预览版以及已被取代的shisa-gamma-7b-v1模型。
测试说明
日语功能测试使用shisa-ai/shaberi评估框架(基于LightBlue Shaberi)。会话评分采用PoLL(LLM评审团)完成,成员包括:
结果经统计验证与gpt-4-1106-preview
及人工"黄金标准"评分具有可比性。对上下文窗口小于8K的模型测试时使用动态RoPE扩展。所有测试均采用最新版vLLM或SGLang完成。
我们开发了定制化"multieval"框架自动化模型评估,标准基准包括:
新日语评测基准
在模型开发过程中,我们还创建了多个新评估标准来衡量重要日语下游任务表现:
- shisa-jp-ifeval:受IFEval启发,专注评估日语语法和语言学的指令遵循能力(封闭式)
- shisa-jp-rp-bench:基于Aratako的Japanese-RP-Bench评估角色扮演和人物对话表现(LLM评分)
- shisa-jp-tl-bench:测试日英翻译能力(LLM评分,BTL成对比较逻辑转换计分)
我们计划近期开源这些基准以支持日语LLM研究社区。
使用指南
所有Shisa V2模型继承基础模型的对话模板,并已验证可与vLLM和SGLang兼容。采样测试表明模型在多数场景下适应不同温度参数:翻译任务推荐低温(0.2)提升准确性,角色扮演等创意任务建议高温(如1.0)。为防止跨语言token泄露,推荐top_p=0.9或min_p=0.1。
训练数据
监督微调(SFT)阶段数据集包含约36万样本,总计约4.2亿Llama 3 token:
最终DPO混合集包含11.3万样本(约1.15亿Llama 3 token):
训练过程
我们训练了200多个模型进行变量实证测试,包括超参数、数据混合、课程学习、多阶段训练等多种方法。大部分训练在AWS Sagemaker 4节点H100集群完成,主要使用Axolotl框架配合DeepSpeed和Liger Kernels。Phi 4和Llama 3.3 70B版本采用OpenRLHF训练。训练日志公开在Weights and Biases。
致谢
Shisa V2由Leonard Lin和Adam Lensenmayer(Shisa.AI)开发。计算资源由Ubitus K.K.和经济产业省GENIAC提供。特别感谢Meta Llama、微软研究院等机构开源模型,以及初代开发者Jon Durbin的贡献。
更多技术细节请访问Shisa V2 GitHub仓库和官网。
1: 根据Llama社区许可协议,基于Llama的模型官方名称为"Llama 3.1 shisa-v2-llama3.1-8b"和"Llama 3.3 shisa-v2-llama3.3-70b"