🚀 DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix
本项目基于 deepseek-ai/DeepSeek-R1-0528-Qwen3-8B 模型开发,提供了量化版本的模型,在推理能力、减少幻觉率等方面有显著提升,适用于多种自然语言处理任务。
🚀 快速开始
环境准备
确保你已经安装了以下依赖:
vllm==0.9.0
transformers==4.52.3
模型下载
使用以下代码下载模型:
from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路径")
新版 VLLM 注意事项
建议使用V0推理模式,启动vllm之前,先设置环境变量:
export VLLM_USE_V1=0
✨ 主要特性
模型升级
DeepSeek R1模型进行了小版本升级,当前版本为DeepSeek-R1-0528。在最新更新中,通过增加计算资源和引入算法优化机制,显著提升了推理深度和推理能力。
性能提升
- 推理能力增强:在各种基准评估中表现出色,包括数学、编程和通用逻辑等领域,整体性能接近领先模型,如O3和Gemini 2.5 Pro。
- 准确率提高:在AIME 2025测试中,准确率从之前版本的70%提高到当前版本的87.5%。
- 幻觉率降低:减少了模型产生幻觉的概率。
- 功能调用支持增强:更好地支持函数调用。
- 编码体验优化:提供了更好的编码体验。
📦 安装指南
依赖安装
vllm==0.9.0
transformers==4.52.3
💻 使用示例
基础用法
from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路径")
📚 详细文档
模型更新日期
2025-05-29
1. 首次commit
模型列表
文件大小 |
最近更新时间 |
6.9GB |
2025-05-29 |
评估结果
DeepSeek-R1-0528
所有模型的最大生成长度设置为64K tokens。对于需要采样的基准测试,使用温度为 $0.6$,top-p值为 $0.95$,每个查询生成16个响应来估计pass@1。
类别 |
基准测试(指标) |
DeepSeek R1 |
DeepSeek R1 0528 |
通用 |
MMLU-Redux (EM) |
92.9 |
93.4 |
通用 |
MMLU-Pro (EM) |
84.0 |
85.0 |
通用 |
GPQA-Diamond (Pass@1) |
71.5 |
81.0 |
通用 |
SimpleQA (Correct) |
30.1 |
27.8 |
通用 |
FRAMES (Acc.) |
82.5 |
83.0 |
通用 |
Humanity's Last Exam (Pass@1) |
8.5 |
17.7 |
代码 |
LiveCodeBench (2408-2505) (Pass@1) |
63.5 |
73.3 |
代码 |
Codeforces-Div1 (Rating) |
1530 |
1930 |
代码 |
SWE Verified (Resolved) |
49.2 |
57.6 |
代码 |
Aider-Polyglot (Acc.) |
53.3 |
71.6 |
数学 |
AIME 2024 (Pass@1) |
79.8 |
91.4 |
数学 |
AIME 2025 (Pass@1) |
70.0 |
87.5 |
数学 |
HMMT 2025 (Pass@1) |
41.7 |
79.4 |
数学 |
CNMO 2024 (Pass@1) |
78.8 |
86.9 |
工具 |
BFCL_v3_MultiTurn (Acc) |
- |
37.0 |
工具 |
Tau-Bench (Pass@1) |
- |
53.5(Airline)/63.9(Retail) |
DeepSeek-R1-0528-Qwen3-8B
将DeepSeek-R1-0528的思维链知识蒸馏到Qwen3 8B Base进行后训练,得到DeepSeek-R1-0528-Qwen3-8B。该模型在AIME 2024测试中达到了开源模型的最优性能,超过Qwen3 8B模型10.0%,与Qwen3-235B-thinking性能相当。
模型 |
AIME 24 |
AIME 25 |
HMMT Feb 25 |
GPQA Diamond |
LiveCodeBench (2408-2505) |
Qwen3-235B-A22B |
85.7 |
81.5 |
62.5 |
71.1 |
66.5 |
Qwen3-32B |
81.4 |
72.9 |
- |
68.4 |
- |
Qwen3-8B |
76.0 |
67.3 |
- |
62.0 |
- |
Phi-4-Reasoning-Plus-14B |
81.3 |
78.0 |
53.6 |
69.3 |
- |
Gemini-2.5-Flash-Thinking-0520 |
82.3 |
72.0 |
64.2 |
82.8 |
62.3 |
o3-mini (medium) |
79.6 |
76.7 |
53.3 |
76.8 |
65.9 |
DeepSeek-R1-0528-Qwen3-8B |
86.0 |
76.3 |
61.5 |
61.1 |
60.5 |
🔧 技术细节
推理过程优化
在推理过程中,模型的思维深度得到增强。在AIME测试集中,之前的模型每个问题平均使用12K tokens,而新版本平均每个问题使用23K tokens。
📄 许可证
本代码仓库遵循 MIT License。DeepSeek-R1模型的使用也遵循 MIT License。DeepSeek-R1系列(包括Base和Chat)支持商业使用和知识蒸馏。
引用信息
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
联系方式
如果您有任何问题,请提出问题或通过 service@deepseek.com 联系我们。