DeepSeek-R1-0528-Qwen3-8B量化开源模型 - 提升推理减少幻觉，适用多类语言任务

首页

Deepseek R1 0528 Qwen3 8B GPTQ Int4 Int8Mix

由 QuantTrio 开发

基于DeepSeek-R1-0528-Qwen3-8B开发的量化版本模型，在推理能力、减少幻觉率等方面有显著提升，适用于多种自然语言处理任务。

大型语言模型

Transformers

开源协议:MIT #数学推理增强 #低幻觉率 #函数调用优化

下载量 154

发布时间 : 5/30/2025

模型简介

该模型通过增加计算资源和引入算法优化机制，显著提升了推理深度和推理能力，适用于数学、编程和通用逻辑等领域。

模型特点

推理能力增强

在各种基准评估中表现出色，包括数学、编程和通用逻辑等领域，整体性能接近领先模型。

准确率提高

在AIME 2025测试中，准确率从之前版本的70%提高到当前版本的87.5%。

幻觉率降低

减少了模型产生幻觉的概率。

功能调用支持增强

更好地支持函数调用。

编码体验优化

提供了更好的编码体验。

模型能力

文本生成

数学推理

编程辅助

逻辑推理

函数调用

使用案例

数学

AIME 2025测试

在AIME 2025测试中，准确率达到87.5%。

准确率从70%提升至87.5%

编程

LiveCodeBench测试

在LiveCodeBench (2408-2505)测试中，Pass@1达到73.3%。

Pass@1从63.5%提升至73.3%

🚀 DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix

本项目基于 deepseek-ai/DeepSeek-R1-0528-Qwen3-8B 模型开发，提供了量化版本的模型，在推理能力、减少幻觉率等方面有显著提升，适用于多种自然语言处理任务。

🚀 快速开始

环境准备

确保你已经安装了以下依赖：

vllm==0.9.0
transformers==4.52.3

模型下载

使用以下代码下载模型：

from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路径")

新版 VLLM 注意事项

建议使用V0推理模式，启动vllm之前，先设置环境变量：

export VLLM_USE_V1=0

✨ 主要特性

模型升级

DeepSeek R1模型进行了小版本升级，当前版本为DeepSeek-R1-0528。在最新更新中，通过增加计算资源和引入算法优化机制，显著提升了推理深度和推理能力。

性能提升

推理能力增强：在各种基准评估中表现出色，包括数学、编程和通用逻辑等领域，整体性能接近领先模型，如O3和Gemini 2.5 Pro。
准确率提高：在AIME 2025测试中，准确率从之前版本的70%提高到当前版本的87.5%。
幻觉率降低：减少了模型产生幻觉的概率。
功能调用支持增强：更好地支持函数调用。
编码体验优化：提供了更好的编码体验。

📦 安装指南

依赖安装

vllm==0.9.0
transformers==4.52.3

💻 使用示例

基础用法

from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路径")

📚 详细文档

模型更新日期

2025-05-29
1. 首次commit

模型列表

文件大小	最近更新时间
`6.9GB`	`2025-05-29`

评估结果

DeepSeek-R1-0528

所有模型的最大生成长度设置为64K tokens。对于需要采样的基准测试，使用温度为 $0.6$，top-p值为 $0.95$，每个查询生成16个响应来估计pass@1。

类别	基准测试（指标）	DeepSeek R1	DeepSeek R1 0528
通用	MMLU-Redux (EM)	92.9	93.4
通用	MMLU-Pro (EM)	84.0	85.0
通用	GPQA-Diamond (Pass@1)	71.5	81.0
通用	SimpleQA (Correct)	30.1	27.8
通用	FRAMES (Acc.)	82.5	83.0
通用	Humanity's Last Exam (Pass@1)	8.5	17.7
代码	LiveCodeBench (2408-2505) (Pass@1)	63.5	73.3
代码	Codeforces-Div1 (Rating)	1530	1930
代码	SWE Verified (Resolved)	49.2	57.6
代码	Aider-Polyglot (Acc.)	53.3	71.6
数学	AIME 2024 (Pass@1)	79.8	91.4
数学	AIME 2025 (Pass@1)	70.0	87.5
数学	HMMT 2025 (Pass@1)	41.7	79.4
数学	CNMO 2024 (Pass@1)	78.8	86.9
工具	BFCL_v3_MultiTurn (Acc)	-	37.0
工具	Tau-Bench (Pass@1)	-	53.5(Airline)/63.9(Retail)

DeepSeek-R1-0528-Qwen3-8B

将DeepSeek-R1-0528的思维链知识蒸馏到Qwen3 8B Base进行后训练，得到DeepSeek-R1-0528-Qwen3-8B。该模型在AIME 2024测试中达到了开源模型的最优性能，超过Qwen3 8B模型10.0%，与Qwen3-235B-thinking性能相当。

模型	AIME 24	AIME 25	HMMT Feb 25	GPQA Diamond	LiveCodeBench (2408-2505)
Qwen3-235B-A22B	85.7	81.5	62.5	71.1	66.5
Qwen3-32B	81.4	72.9	-	68.4	-
Qwen3-8B	76.0	67.3	-	62.0	-
Phi-4-Reasoning-Plus-14B	81.3	78.0	53.6	69.3	-
Gemini-2.5-Flash-Thinking-0520	82.3	72.0	64.2	82.8	62.3
o3-mini (medium)	79.6	76.7	53.3	76.8	65.9
DeepSeek-R1-0528-Qwen3-8B	86.0	76.3	61.5	61.1	60.5

🔧 技术细节

推理过程优化

在推理过程中，模型的思维深度得到增强。在AIME测试集中，之前的模型每个问题平均使用12K tokens，而新版本平均每个问题使用23K tokens。

📄 许可证

本代码仓库遵循 MIT License。DeepSeek-R1模型的使用也遵循 MIT License。DeepSeek-R1系列（包括Base和Chat）支持商业使用和知识蒸馏。

引用信息

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}