Shisa V2 Llama3.1-8b开源聊天模型 - 免费部署，支持日英双语对话

首页

Shisa V2 Llama3.1 8b

由 shisa-ai 开发

Shisa V2 是由 Shisa.AI 训练的一系列日英双语通用聊天模型，专注于日语任务表现同时保持强大的英语能力。

大型语言模型

Transformers

支持多种语言#日英双语优化 #高精度日语生成 #大语言模型评审

下载量 120

发布时间 : 4/12/2025

模型简介

Shisa V2 是日英双语通用聊天模型系列，采用合成数据驱动方法训练，优化后训练过程，显著提升日语输出质量。

模型特点

双语能力

具备出色的日语和英语处理能力，尤其在日语任务上表现卓越。

性能提升

相较于基础模型，在日语输出质量上有显著提升。

数据驱动

采用合成数据驱动的方法进行训练，优化后训练过程。

长上下文支持

支持128K/8K的上下文长度，适合处理长文本任务。

模型能力

日语文本生成

英语文本生成

双语对话

指令遵循

角色扮演

翻译任务

使用案例

聊天对话

日语聊天助手

作为日语聊天助手，提供自然流畅的对话体验。

在日语聊天任务中表现优异

英语聊天助手

作为英语聊天助手，保持强大的英语对话能力。

在英语聊天任务中表现良好

翻译任务

日英翻译

执行日英翻译任务，提供准确的翻译结果。

在翻译任务中表现优异

角色扮演

角色扮演对话

支持各种角色、场景和类型的角色扮演对话。

在角色扮演任务中表现良好

🚀 Shisa V2

Shisa V2 是由 Shisa.AI 训练的一系列日英双语（JA/EN）通用聊天模型。这些模型旨在在日语任务中表现出色，同时保持强大的英语能力。

自我们最初发布 Shisa 7B 以来，开放权重语言模型的日语基础能力有了显著提升。新模型拥有更多的日语预训练标记、更高的日语分词器效率，并且整体日语输出质量更好。因此，对于 Shisa V2，我们放弃了分词器扩展和成本高昂的持续预训练，而是完全专注于优化后训练。我们大幅扩展和完善了最初在 Shisa 7B 模型中开创的合成数据驱动方法，并取得了显著的性能提升。

🚀 快速开始

你可以直接使用 Shisa V2 模型进行文本生成任务，继承了各自基础模型的聊天模板，并已使用 vLLM 和 SGLang 进行了测试和验证，以确保能够正确推理。

✨ 主要特性

双语能力：具备出色的日语和英语处理能力，尤其在日语任务上表现卓越。
性能提升：相较于基础模型，在日语输出质量上有显著提升。
数据驱动：采用合成数据驱动的方法进行训练，优化后训练过程。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型家族概述

Shisa V2 家族包含一系列参数规模从 7B 到 70B 的模型：

许可证	模型	参数	上下文长度	日语平均得分	英语平均得分
Apache 2.0	shisa-v2-qwen2.5-7b	7B	128K/8K	71.06	54.86
Llama 3.1	shisa-v2-llama3.1-8b¹	8B	128K	70.83	54.75
Apache 2.0	shisa-v2-mistral-nemo-12b	12B	128K	72.83	53.33
MIT	shisa-v2-unphi4-14b	14B	16K	75.89	60.10
Apache 2.0	shisa-v2-qwen2.5-32b	32B	128K/8K	76.97	67.41
Llama 3.3	shisa-v2-llama3.3-70b¹	70B	128K	79.72	67.71

这些 Shisa V2 模型均使用相同的数据集和训练方法进行训练，除了根据模型大小调整学习率以及为 70B 模型修改全局批量大小。

性能表现

所有 Shisa V2 模型与各自的基础模型相比，日语输出质量均有所提升：

模型	日语平均得分	英语平均得分	Shaberi 平均得分	ELYZA 100	JA MT Bench	Rakuda	Tengu	llm-jp-eval	shisa-jp-ifeval	shisa-jp-rp-bench	shisa-jp-tl-bench	MixEval	LiveBench	IFEval	EvalPlus
shisa-ai/shisa-v2-llama3.1-8b	70.83	54.75	8.20	7.67	8.32	9.24	7.56	0.57	0.31	4.61	5.91	0.45	31.7	0.82	0.61
meta-llama/Llama-3.1-8B-Instruct	53.43	53.88	7.34	6.95	7.67	8.36	6.40	0.25	0.16	4.13	1.03	0.44	27.7	0.80	0.63

Shisa V2 模型在各自的参数规模类别中与其他模型相比表现出色。

为作参考，还列出了我们最近发布的 shisa-v2-llama3.1-8b-preview “预览版” 以及仍然受欢迎但早已被取代的 shisa-gamma-7b-v1 模型。

| 许可证 | 模型 | 日语平均得分 | 英语平均得分 | Shaberi 平均得分 | ELYZA 100 | JA MT Bench | Rakuda | Tengu | llm-jp-eval | shisa-jp-ifeval | shisa-jp-rp-bench | shisa-jp-tl-bench | MixEval | LiveBench | IFEval | EvalPlus | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | Apache 2.0 | shisa-ai/shisa-v2-qwen2.5-7b | 71.06 | 54.86 | 8.21 | 7.81 | 8.49 | 8.91 | 7.62 | 0.59 | 0.32 | 4.49 | 5.98 | 0.44 | 32.9 | 0.70 | 0.73 | | Llama 3.1 | shisa-ai/shisa-v2-llama3.1-8b | 70.83 | 54.75 | 8.20 | 7.67 | 8.32 | 9.24 | 7.56 | 0.57 | 0.31 | 4.61 | 5.91 | 0.45 | 31.7 | 0.82 | 0.61 | | Llama 3.1 | shisa-ai/shisa-v2-llama3.1-8b-preview | 68.03 | 54.56 | 8.12 | 7.55 | 8.57 | 9.03 | 7.33 | 0.56 | 0.19 | 4.67 | 5.18 | 0.46 | 32.0 | 0.79 | 0.62 | | Llama 3.1 | tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3 | 67.44 | 42.20 | 8.22 | 8.01 | 8.40 | 9.10 | 7.37 | 0.56 | 0.25 | 4.36 | 4.22 | 0.30 | 26.4 | 0.64 | 0.48 | | Apache 2.0 | Qwen/Qwen2.5-7B-Instruct | 65.30 | 58.11 | 8.03 | 7.81 | 8.09 | 8.68 | 7.53 | 0.57 | 0.29 | 4.15 | 3.29 | 0.44 | 33.9 | 0.76 | 0.79 | | Llama 3.1 | AXCXEPT/Llama-3.1-8B-EZO-1.1-it | 63.80 | 53.94 | 7.93 | 7.57 | 8.26 | 8.61 | 7.28 | 0.39 | 0.22 | 4.53 | 4.17 | 0.46 | 30.4 | 0.77 | 0.62 | | Llama 3 | elyza/Llama-3-ELYZA-JP-8B | 60.92 | 39.09 | 7.91 | 7.61 | 8.08 | 8.92 | 7.04 | 0.41 | 0.24 | 4.39 | 1.75 | 0.34 | 17.5 | 0.62 | 0.43 | | Llama 3.1 | allenai/Llama-3.1-Tulu-3.1-8B | 60.86 | 54.21 | 7.42 | 6.84 | 7.69 | 8.61 | 6.52 | 0.51 | 0.22 | 4.39 | 2.90 | 0.40 | 31.3 | 0.82 | 0.63 | | Apache 2.0 | llm-jp/llm-jp-3-7.2b-instruct3 | 56.05 | 23.46 | 7.66 | 6.99 | 7.70 | 9.16 | 6.79 | 0.47 | 0.20 | 3.03 | 1.49 | 0.22 | 5.2 | 0.49 | 0.18 | | Llama 3.1 | meta-llama/Llama-3.1-8B-Instruct | 53.43 | 53.43 | 7.34 | 6.95 | 7.67 | 8.36 | 6.40 | 0.25 | 0.16 | 4.13 | 1.03 | 0.44 | 27.7 | 0.80 | 0.63 | | Llama 3 | shisa-ai/shisa-v1-llama3-8b | 53.08 | 42.80 | 7.17 | 6.40 | 7.50 | 8.31 | 6.48 | 0.23 | 0.09 | 4.20 | 2.24 | 0.36 | 20.2 | 0.63 | 0.52 | | Apache 2.0 | weblab-GENIAC/Tanuki-8B-dpo-v1.0 | 52.25 | 27.04 | 7.10 | 6.97 | 6.58 | 8.40 | 6.46 | 0.23 | 0.17 | 3.67 | 2.02 | 0.24 | 14.4 | 0.38 | 0.32 | | Apache 2.0 | augmxnt/shisa-gamma-7b-v1 | 48.88 | 20.88 | 6.20 | 5.74 | 5.93 | 7.28 | 5.87 | 0.52 | 0.13 | 3.20 | 1.43 | 0.26 | 2.2 | 0.37 | 0.18 |

测试说明

日语功能测试使用了 LightBlue Shaberi 评估工具的 shisa-ai/shaberi 分支。Shaberi 评级由一个 PoLL（大语言模型评审团）执行，该评审团由以下模型组成：

测试结果在统计上与 gpt-4-1106-preview 和人工评审的 “黄金标准” 评级具有可比性。

在测试上下文窗口小于 8K 标记的模型时，必要情况下使用了动态 RoPE 扩展。所有测试均使用 vLLM 或 SGLang 的最新版本进行。

我们开发了一个自定义的 “multieval” 工具来自动化模型评估。标准基准测试包括：

新的日语基准测试

在模型开发过程中，我们还创建了几个新的评估指标，以帮助我们衡量在重要的日语下游任务上的性能：

shisa-jp-ifeval：受 IFEval 启发，但专门评估日语语法和语言学方面的指令遵循能力（封闭式）。
shisa-jp-rp-bench：基于 Aratako 的 Japanese-RP-Bench 评估日语角色扮演和基于角色/人物的多轮对话性能（大语言模型评审）。
shisa-jp-tl-bench：测试日英翻译能力（大语言模型评审，采用 BTL 成对比较和逻辑变换评分）。

我们相信这些基准测试将具有普遍实用性，并计划在不久的将来将其开源，以支持日语大语言模型研究社区。

使用建议

所有 Shisa V2 模型继承了各自基础模型的聊天模板，并已使用 vLLM 和 SGLang 进行了测试和验证，以确保能够正确推理。

在运行采样器扫描时，我们发现模型在大多数设置下的各种温度参数下都能良好运行。具体而言，对于翻译任务，建议使用较低的温度（0.2）以提高准确性；对于角色扮演和创意任务，较高的温度（例如 1.0）似乎能产生较好的结果。为防止跨语言标记泄漏，建议使用 0.9 的 top_p 或 0.1 的 min_p。

需要注意的是，这些模型未进行额外的安全对齐，因此在很大程度上会继承基础模型的偏差和安全特性。

数据集

我们的监督微调（SFT）阶段数据集约包含 360K 个样本，总计约 420M 个 Llama 3 标记：

shisa-ai/shisa-v2-sharegpt
- 这是原始 Shisa V1 augmxnt/ultra-orca-boros-en-ja-v1 数据集的过滤、重新生成和重新采样版本。
- 这是我们 Shisa V2 训练的核心数据集，事实证明它是一个非常强大的数据集，性能优于所有现有的混合/补充数据集（Tulu、Olmo、Rewild、各种 Magpie 集等）。如果你需要一个日英数据集，我们认为这个新版本是目前可用的最佳数据集之一。
shisa-ai/rewild-set-deepseek-subset
- Rewild (WildChat) 提示的过滤版本，翻译成日语，并由 DeepSeek-V3-0324 生成响应。
shisa-ai/magpie-ultra-set
- 基于 argilla/magpie-ultra-v1.0 的日语生成数据。
shisa-ai/magpie-advanced-questions-set
- Magpie 生成的关于各种学术领域高级大学水平主题的问题。
shisa-ai/japan-magpie-set
- Magpie 生成的关于日本经济、历史以及文化和商业实践的问题。
shisa-ai/shisa-v2-roleplaying-sft
- 合成生成的角色扮演数据，包含各种角色、场景和类型。
shisa-ai/translation_expanded_master_set_filtered
- 一个涉及广泛翻译任务的合成数据集，包括论文、对话和小说。
shisa-ai/shisa-v2-instruction-following-sft
- 基于 (Aratako/Magpie-Tanuki-8B-annotated-96k) 提示和一系列指令遵循约束的指令遵循数据集。

我们最终的 DPO 混合数据集包含 113K 个样本，总计约 115M 个 Llama 3 标记：

shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- 这是 princeton-nlp/gemma2-ultrafeedback-armorm 的一个版本，其中 chosen 响应由 DeepSeek-V3-0324 重新生成。
- 令人惊讶的是，我们发现仅使用这个相对较小的英语 DPO 对齐集的性能优于日英 DPO 集以及像 Tulu 3 偏好混合集这样大得多的数据集。
shisa-ai/shisa-v2-roleplaying-dpo
- 角色扮演 SFT 集的 DPO 变体，使用 UltraFeedback 风格的评级系统。
shisa-ai/translation-no-extra-text-dpo-dataset
- 一个旨在减少模型在不需要时输出额外翻译解释文本倾向的 DPO 集。
shisa-ai/shisa-v2-instruction-following-dpo
- 指令遵循 SFT 集的 DPO 变体，用于进一步提高指令遵循性能。
shisa-ai/politeness-dpo-set
- 一个用于更好控制日语响应说话风格的数据集。

训练

我们训练了超过 200 个模型，以实证测试各种变量。除了超参数和数据混合测试外，我们还对数据排序、多语言特定排序、课程学习、多阶段训练、各种形式的自我博弈、偏好调整以及一些最新的强化学习/可验证奖励技术进行了大量测试。

由于篇幅限制，这里无法详细讨论这些经验教训，但我们将在 shisa-v2 维基和 Shisa.AI 网站上更新相关文章。

我们的大部分训练是在一个小型 AWS Sagemaker 部署的 4 节点 H100 Slurm 集群上进行的。训练主要使用 Axolotl 以及 DeepSpeed 和 Liger Kernels。Shisa V2 的 Phi 4 和 Llama 3.3 70B 版本使用 OpenRLHF 进行训练。我们的训练日志可在 Weights and Biases 上公开获取。

鸣谢

Shisa V2 模型由 Leonard Lin 和 Adam Lensenmayer（Shisa.AI）开发。

计算资源由 Ubitus K.K. 和 METI GENIAC 提供。

感谢 Meta Llama、Microsoft Research、Mistral AI 和 Qwen Team 向开源社区提供他们的模型；感谢 Unsloth 对 Phi-4 进行的 llamafied 转换；感谢 Tulu 团队详细的文章和对我们问题的快速响应；感谢 Axolotl 团队的 Chanvichet Vong 在 Axolotl Discord 上的不懈努力。

我们还要感谢所有开源人工智能开发者和研究人员，没有他们公开分享的研究、工具和数据集，我们的工作将无法开展。我们希望我们自己的贡献能够进一步支持更广泛的社区。

特别感谢 Jon Durbin 在 Shisa V1 上的工作。

如需了解我们的开发详情和见解，请访问 Shisa V2 Github 仓库和 Shisa.AI 网站。

^{1: 根据 Llama 社区许可协议，基于 Llama 的模型的正式名称为 "Llama 3.1 shisa-v2-llama3.1-8b" 和 "Llama 3.3 shisa-v2-llama3.3-70b"}