DeepSeek-V3-0324-Fused-4E-29B-Unhealed-Preview开源模型 - 适用于研究，修复后恢复功能

首页

Deepseek V3 0324 Fused 4E 29B Unhealed Preview

由 AlphaGaO 开发

这是一个未经过完整训练的实验性模型，主要用于研究目的，通过模型融合技术创建，需要特定修复流程才能恢复正常功能。

大型语言模型

Transformers

#专家融合压缩 #中文写作增强 #前端代码优化

下载量 167

发布时间 : 4/8/2025

模型简介

基于256个专家的DeepSeek-V3-0324模型，提供不同压缩级别的预览版本，主要用于研究模型融合和蒸馏技术。

模型特点

模型融合技术

通过专家融合技术显著减小模型大小（缩减至1/20-1/23），同时保持超出预期的性能表现

多领域能力提升

在MMLU-Pro、GPQA、AIME等多个基准测试中性能显著提升

中文能力增强

中文写作风格和质量提升，支持多轮交互式重写，翻译和书信写作优化

代码生成改进

前端网页开发能力增强，生成的代码更易执行，页面和游戏前端更美观

函数调用优化

修复了之前版本的函数调用问题，准确性提高

模型能力

文本生成

代码生成

中文写作

网页搜索增强

函数调用

JSON输出

FIM完成

使用案例

学术研究

模型融合技术研究

研究模型融合和蒸馏技术的效果和改进空间

提供不同压缩级别的模型变体供研究

内容创作

中文写作辅助

帮助用户生成高质量的中文内容

符合R1写作风格，中长篇写作质量更好

前端开发

网页代码生成

生成可执行的前端网页代码

代码可执行性提高，页面更美观

🚀 未修复的DeepSeek - v3 - 0324指令融合模型（研究版本发布）

本项目发布的是未经过完整训练的实验性模型，主要用于研究目的。这些模型通过模型融合技术创建，但需要特定的“修复”流程才能恢复正常功能。

关键提示

未训练的融合模型：这些模型是未经过“修复”的实验版本，直接使用会出现不可预测的行为，必须进行后训练才能使用。
研究专用：仅用于研究，请勿在未了解和执行修复程序的情况下使用。

🚀 快速开始

模型介绍

本项目基于使用256个专家的DeepSeek - V3 - 0324模型，提供了四种不同压缩级别的预览模型：

8个融合专家，秩为4（约39B参数）：大小缩减至1/20。
4个融合专家，秩为4（约29B参数）：大小缩减至1/23。

尽管模型大小显著减小，但性能表现出色，超出了参数数量预期。不过，目前仍需进行更全面的测试。

注意事项

融合后的模型处于初始不稳定状态，性能会显著下降，输出不可预测，不能代表最终训练好的融合模型的能力。
这是融合和蒸馏技术的早期迭代，蒸馏过程仍有很大的改进空间。

修复说明

必须进行后训练：要使这些模型可用，必须进行后训练。必要的脚本和详细说明可在[moe - pruner](https://github.com/gabrielolympie/moe - pruner)仓库中找到。
仔细遵循说明：请仔细按照该仓库中的说明对剪枝后的模型进行“修复”，此过程对恢复性能至关重要。

✨ 主要特性

推理能力

基准测试性能显著提升：
- MMLU - Pro：从75.9提升到81.2（+5.3）
- GPQA：从59.1提升到68.4（+9.3）
- AIME：从39.6提升到59.4（+19.8）
- LiveCodeBench：从39.2提升到49.2（+10.0）

前端网页开发

代码可执行性提高：生成的代码更易于执行。
页面和游戏前端更美观：生成的网页和游戏前端更具美感。

中文写作能力

风格和内容质量提升：符合R1写作风格，中长篇写作质量更好。
功能增强：多轮交互式重写得到改进，翻译质量和书信写作得到优化。

中文搜索能力

报告分析请求增强：输出更详细的报告分析结果。

函数调用改进

函数调用准确性提高：修复了之前V3版本的问题，函数调用准确性增加。

💻 使用示例

系统提示

在官方DeepSeek网页/应用中，使用带有特定日期的系统提示。例如：

ËØ•Âä©Êâã‰∏∫DeepSeek ChatÔºåÁî±Ê∑±Â∫¶Ê±ÇÁ¥¢ÂÖ¨Âè∏ÂàõÈÄ†„ÄÇ
‰ªäÂ§©ÊòØ3Êúà24Êó•ÔºåÊòüÊúü‰∏Ä„ÄÇ

温度设置

在网页和应用环境中，温度参数$T_{model}$设置为0.3。由于许多用户在API调用中使用默认温度1.0，因此实现了API温度$T_{api}$映射机制，将输入的API温度值1.0调整为最适合的模型温度设置0.3。计算公式如下： $$ T_{model} = T_{api} \times 0.3 \quad (0 \leq T_{api} \leq 1) $$ $$ T_{model} = T_{api} - 0.7 \quad (1 < T_{api} \leq 2) $$ 因此，通过API调用V3时，温度1.0相当于模型温度0.3。

文件上传和网页搜索提示

文件上传

请按照以下模板创建提示，其中{file_name}、{file_content}和{question}是参数。

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

网页搜索

对于中文查询，使用以下提示：

search_answer_zh_template = \
'''# ‰ª•‰∏ãÂÜÖÂÆπÊòØÂü∫‰∫éÁî®Êà∑ÂèëÈÄÅÁöÑÊ∂àÊÅØÁöÑÊêúÁ¥¢ÁªìÊûú:
{search_results}
...（原文内容较长，此处省略）
{question}'''

对于英文查询，使用以下提示：

search_answer_en_template = \
'''# The following contents are the search results related to the user's message:
{search_results}
...（原文内容较长，此处省略）
{question}'''

📚 详细文档

本地运行

DeepSeek - V3 - 0324的模型结构与DeepSeek - V3完全相同。有关如何在本地运行此模型的更多信息，请访问[DeepSeek - V3](https://github.com/deepseek - ai/DeepSeek - V3)仓库。

功能支持

此模型支持函数调用、JSON输出和FIM完成等功能。有关如何构造提示以使用这些功能的说明，请参考[DeepSeek - V2.5](https://huggingface.co/deepseek - ai/DeepSeek - V2.5#function - calling)仓库。

注意事项

目前Hugging Face的Transformers尚未直接支持该模型。

📄 许可证

本仓库和模型权重遵循MIT许可证。

🔗 引用

@misc{deepseekai2024deepseekv3technicalreport,
      title={DeepSeek-V3 Technical Report}, 
      author={DeepSeek-AI},
      year={2024},
      eprint={2412.19437},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.19437}, 
}