许可证:apache-2.0
语言:
- 中文
- 英语
- 法语
- 西班牙语
- 葡萄牙语
- 德语
- 意大利语
- 俄语
- 日语
- 韩语
- 越南语
- 泰语
- 阿拉伯语
评估指标:
- 准确率
基础模型:
- Qwen/Qwen2.5-72B
任务标签:文本生成
YiXin-Distill-Qwen-72B
模型概述
YiXin-Distill-Qwen-72B:专为数学与通用推理优化的高性能蒸馏模型,基于Qwen2.5-72B通过强化学习提炼而成。该模型特别针对数学推理和通用知识任务进行了优化,采用先进的蒸馏技术提升推理能力的同时保持计算效率。依托强大的Qwen模型基础,旨在各类基准测试中实现顶尖性能。我们的评估显示,YiXin-Distill-Qwen-72B在关键数学与通用推理任务中表现优异,较同类蒸馏模型平均提升5至11个百分点。
训练细节
数据收集与处理
训练数据经过精心筛选,构建了高质量数据集以提升数学推理与通用知识理解能力。数据处理采用结构化多阶段流程,确保模型性能最优且噪声最小化。
1. 数据集整合
- 基于当前可获取的高质量开源数据集
- 覆盖数学与通用知识等多领域
2. 数据过滤与质量评估
采用DeepSeek-R1作为大语言模型评判员实施全面质量控制,评估维度包括:
- 难度分级:将数据样本分为简单、中等、困难三级,确保复杂度均衡
- 事实核查:严格验证数据集中答案的正确性
- 质量评分:根据复杂性、指令清晰度和推理提升潜力评估每对提示-响应
- 响应长度分析:剔除未达最低长度要求的响应(通常缺乏有效训练信号)
3. 验证与优化
- 主观答案采用LLM评判员验证质量与相关性
- 数学内容额外验证流程:
- 系统验证数学答案及解题过程
- 批判模型评估每个解题步骤的逻辑一致性与正确性
- 修正或移除存在逻辑缺陷的解决方案
蒸馏过程
采用渐进式两阶段蒸馏法,通过智能数据选择与优化迭代提升模型性能。训练框架持续筛除高置信度样本(模型已擅长的案例)以防止过拟合,同时迭代优化低置信度样本以强化薄弱推理模式。通过多轮微调与质量评估,实现数学与通用推理任务中效率与准确率的平衡提升。
评估结果
在数学推理和通用知识任务中对比QwQ-32B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B及DeepSeek-R1等模型的基准测试:

指标 |
QwQ-32B |
DeepSeek-R1-Distill-Qwen-32B |
DeepSeek-R1-Distill-Llama-70B |
DeepSeek-R1 |
YiXin-Distill-Qwen-72B |
MATH-500 |
96.2 |
91.2 |
94.0 |
94.4 |
97.0 |
GPQA-Diamond |
62.6 |
62.1 |
62.6 |
74.8 |
69.2 |
AIME-24 |
73.3 |
66.7 |
70.0 |
80.0 |
76.7 |
AIME-25 |
63.3 |
60.0 |
46.7 |
63.3 |
73.3 |
MMLU-Pro |
86.2 |
78.3 |
80.3 |
92.4 |
92.6 |
平均分 |
76.3 |
71.7 |
70.7 |
81.0 |
81.8 |
YiXin-Distill-Qwen-72B在数学推理与通用知识任务中均展现显著提升。
本地运行指南
使用Hugging Face Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
{"role": "system", "content": "你是一个有用且无害的助手。你是阿里巴巴开发的Qwen,应当逐步思考问题。"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
使用vLLM或SGLang
例如通过vLLM快速启动服务:
vllm serve YiXin-AILab/YiXin-Distill-Qwen-72B --tensor-parallel-size 4 --max-model-len 32768 --enforce-eager
或通过SGLang启动:
python3 -m sglang.launch_server --model YiXin-AILab/YiXin-Distill-Qwen-72B --trust-remote-code --tp 4 --port 8000
通过以下指令访问聊天API:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "YiXin-AILab/YiXin-Distill-Qwen-72B",
"messages": [
{"role": "system", "content": "你是一个有用且无害的助手。你是阿里巴巴开发的Qwen,应当逐步思考问题。"},
{"role": "user", "content": "8+8=?"}
]
}'
局限性
尽管性能强劲,YiXin-Distill-Qwen-72B仍存在以下限制:
- 潜在安全风险:可能受对抗攻击、提示注入和数据泄露影响,敏感场景部署建议采取防护措施
- 领域特定偏差:在训练数据覆盖不足的领域表现可能波动
- 蒸馏过程损耗:教师模型的部分复杂推理能力可能在蒸馏过程中减弱
引用
若在研究中使用本模型,请按以下格式引用:
@misc{yixindistillqwen-72b,
title={YiXin-Distill-Qwen-72B:面向数学与通用推理的高性能蒸馏模型},
author={YiXin-AILab},
year={2025},
url={https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B}
}
致谢
我们感谢开源社区及Qwen、DeepSeek模型研发人员的贡献,他们的工作极大推动了大语言模型蒸馏与推理能力的发展。