license: apache-2.0
language:
- en
- zh
metrics:
- accuracy
base_model:
- Qwen/Qwen2.5-72B
pipeline_tag: text-generation
易心蒸馏千问72B大模型
模型概述
易心蒸馏千问72B大模型是基于Qwen2.5-72B通过强化学习蒸馏的高性能数学推理与通用知识处理模型。该模型针对数学推理和通用知识任务进行了专项优化,采用前沿蒸馏技术提升推理能力的同时保持计算效率。依托千问模型的坚实基础,本模型旨在各类基准测试中实现最优性能表现。基准测试表明,易心蒸馏千问72B在关键数学推理和通用知识任务中较同类蒸馏模型平均提升5-11个百分点。
训练细节
数据采集与处理
本模型采用精心筛选的高质量数据集进行训练,该数据集专为提升数学推理与通用知识理解能力而设计。数据处理流程采用结构化多阶段方法,在确保模型性能最优化的同时最大限度降低噪声干扰。
1. 数据集构建
- 基于当前可获取的高质量开源数据集
- 覆盖数学推理与通用知识等多领域
2. 数据过滤与质量评估
我们采用DeepSeek-R1作为大语言模型评审员,构建了完整的质量控制框架:
- 难度分级:将数据样本划分为简单、中等、困难三级,确保复杂度均衡
- 真值验证:通过严格验证流程确保数据集答案准确性
- 质量评分:根据复杂度、指令清晰度和推理提升潜力评估每个提示-响应对
- 响应长度分析:剔除未达最低长度要求的响应,因其通常缺乏有效训练信号
3. 验证与优化
针对主观性答案,采用大语言模型评审员验证响应质量与相关性。数学内容额外执行验证流程:
- 系统验证数学答案及对应解题过程
- 通过批判模型评估每个解题步骤的逻辑一致性与数学推演正确性
- 修正或移除存在逻辑缺陷的解题方案
蒸馏工艺
本模型采用渐进式两阶段蒸馏法,通过智能数据选择与优化迭代提升模型性能。训练框架持续识别并移除高置信度样本(即模型已熟练掌握的案例)以防止过拟合,同时迭代优化低置信度样本以强化薄弱推理模式。通过多轮微调与质量评估,实现数学推理与通用知识基准测试中效率与准确性的平衡提升。
评估结果
在数学推理与通用知识任务中,本模型与QwQ-32B、DeepSeek-R1蒸馏千问32B、DeepSeek-R1蒸馏Llama-70B及DeepSeek-R1等模型进行了对比测试:

评估指标 |
QwQ-32B |
DeepSeek千问32B |
DeepSeek-Llama70B |
DeepSeek-R1 |
易心千问72B |
MATH-500 |
96.2 |
91.2 |
94.0 |
94.4 |
97.0 |
GPQA钻石级 |
62.6 |
62.1 |
62.6 |
74.8 |
69.2 |
AIME-24 |
73.3 |
66.7 |
70.0 |
80.0 |
76.7 |
AIME-25 |
63.3 |
60.0 |
46.7 |
63.3 |
73.3 |
MMLU专业版 |
86.2 |
78.3 |
80.3 |
92.4 |
92.6 |
平均分 |
76.3 |
71.7 |
70.7 |
81.0 |
81.8 |
快速使用
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
{"role": "system", "content": "你是一个有用且无害的助手。你是阿里巴巴开发的千问模型。请逐步思考问题。"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
局限性
尽管性能卓越,本模型仍存在以下限制:
- 安全隐患:可能面临对抗攻击、提示注入和数据泄露风险,敏感场景部署建议采取防护措施
- 领域偏差:在训练数据覆盖不足的领域可能出现性能波动
- 蒸馏损耗:部分教师模型的精微推理能力可能在蒸馏过程中减弱
引用规范
若在研究中应用本模型,请按以下格式引用:
@misc{yixindistillqwen-72b,
title={易心蒸馏千问72B大模型:数学推理与通用知识的高效蒸馏模型},
author={易心人工智能实验室},
year={2025},
url={https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B}
}
致谢
我们衷心感谢开源社区及Qwen、DeepSeek模型研发团队的贡献,他们的工作极大推动了大语言模型蒸馏与推理能力的发展。