🚀 未修复的DeepSeek - v3 - 0324指令融合模型(研究版本发布)
本项目发布的是未经过完整训练的实验性模型,主要用于研究目的。这些模型通过模型融合技术创建,但需要特定的“修复”流程才能恢复正常功能。
关键提示
- 未训练的融合模型:这些模型是未经过“修复”的实验版本,直接使用会出现不可预测的行为,必须进行后训练才能使用。
- 研究专用:仅用于研究,请勿在未了解和执行修复程序的情况下使用。
🚀 快速开始
模型介绍
本项目基于使用256个专家的DeepSeek - V3 - 0324模型,提供了四种不同压缩级别的预览模型:
- 8个融合专家,秩为4(约39B参数):大小缩减至1/20。
- 4个融合专家,秩为4(约29B参数):大小缩减至1/23。
尽管模型大小显著减小,但性能表现出色,超出了参数数量预期。不过,目前仍需进行更全面的测试。
注意事项
- 融合后的模型处于初始不稳定状态,性能会显著下降,输出不可预测,不能代表最终训练好的融合模型的能力。
- 这是融合和蒸馏技术的早期迭代,蒸馏过程仍有很大的改进空间。
修复说明
- 必须进行后训练:要使这些模型可用,必须进行后训练。必要的脚本和详细说明可在[moe - pruner](https://github.com/gabrielolympie/moe - pruner)仓库中找到。
- 仔细遵循说明:请仔细按照该仓库中的说明对剪枝后的模型进行“修复”,此过程对恢复性能至关重要。
✨ 主要特性
推理能力
- 基准测试性能显著提升:
- MMLU - Pro:从75.9提升到81.2(+5.3)
- GPQA:从59.1提升到68.4(+9.3)
- AIME:从39.6提升到59.4(+19.8)
- LiveCodeBench:从39.2提升到49.2(+10.0)
前端网页开发
- 代码可执行性提高:生成的代码更易于执行。
- 页面和游戏前端更美观:生成的网页和游戏前端更具美感。
中文写作能力
- 风格和内容质量提升:符合R1写作风格,中长篇写作质量更好。
- 功能增强:多轮交互式重写得到改进,翻译质量和书信写作得到优化。
中文搜索能力
函数调用改进
- 函数调用准确性提高:修复了之前V3版本的问题,函数调用准确性增加。
💻 使用示例
系统提示
在官方DeepSeek网页/应用中,使用带有特定日期的系统提示。例如:
该助手为DeepSeek Chat,由深度求索公司创造。
今天是3月24日,星期一。
温度设置
在网页和应用环境中,温度参数$T_{model}$设置为0.3。由于许多用户在API调用中使用默认温度1.0,因此实现了API温度$T_{api}$映射机制,将输入的API温度值1.0调整为最适合的模型温度设置0.3。计算公式如下:
$$
T_{model} = T_{api} \times 0.3 \quad (0 \leq T_{api} \leq 1)
$$
$$
T_{model} = T_{api} - 0.7 \quad (1 < T_{api} \leq 2)
$$
因此,通过API调用V3时,温度1.0相当于模型温度0.3。
文件上传和网页搜索提示
文件上传
请按照以下模板创建提示,其中{file_name}、{file_content}和{question}是参数。
file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""
网页搜索
对于中文查询,使用以下提示:
search_answer_zh_template = \
'''# 以下内容是基于用户发送的消息的搜索结果:
{search_results}
...(原文内容较长,此处省略)
{question}'''
对于英文查询,使用以下提示:
search_answer_en_template = \
'''# The following contents are the search results related to the user's message:
{search_results}
...(原文内容较长,此处省略)
{question}'''
📚 详细文档
本地运行
DeepSeek - V3 - 0324的模型结构与DeepSeek - V3完全相同。有关如何在本地运行此模型的更多信息,请访问[DeepSeek - V3](https://github.com/deepseek - ai/DeepSeek - V3)仓库。
功能支持
此模型支持函数调用、JSON输出和FIM完成等功能。有关如何构造提示以使用这些功能的说明,请参考[DeepSeek - V2.5](https://huggingface.co/deepseek - ai/DeepSeek - V2.5#function - calling)仓库。
注意事项
目前Hugging Face的Transformers尚未直接支持该模型。
📄 许可证
本仓库和模型权重遵循MIT许可证。
🔗 引用
@misc{deepseekai2024deepseekv3technicalreport,
title={DeepSeek-V3 Technical Report},
author={DeepSeek-AI},
year={2024},
eprint={2412.19437},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.19437},
}
📞 联系我们
如果您有任何问题,请提出问题或通过service@deepseek.com联系我们。