YiXin-Distill-Qwen-72B开源模型 - 优化数学与通用推理，高效解决难题

首页

Yixin Distill Qwen 72B

由 YiXin-AILab 开发

专为数学与通用推理优化的高性能蒸馏模型，基于Qwen2.5-72B通过强化学习提炼而成

大型语言模型

Safetensors

支持多种语言开源协议:Apache-2.0 #数学推理优化 #多语言知识蒸馏 #渐进式两阶段蒸馏

下载量 38

发布时间 : 3/13/2025

模型简介

该模型特别针对数学推理和通用知识任务进行了优化，采用先进的蒸馏技术提升推理能力的同时保持计算效率。

模型特点

数学推理优化

特别针对数学推理任务进行优化，在数学基准测试中表现优异

通用知识理解

在通用知识任务中展现强大的理解和推理能力

高效蒸馏技术

采用渐进式两阶段蒸馏法，提升推理效率同时保持性能

多语言支持

支持13种语言，包括中文、英语、法语等

模型能力

数学问题解答

通用知识推理

多语言文本生成

逐步推理解释

使用案例

教育

数学辅导

帮助学生理解和解决各类数学问题

在MATH-500测试中达到97.0%准确率

知识问答

回答各类通用知识问题

在MMLU-Pro测试中达到92.6%准确率

研究

科学问题分析

协助研究人员分析复杂的科学问题

在GPQA-Diamond测试中达到69.2%准确率

🚀 YiXin-Distill-Qwen-72B

YiXin-Distill-Qwen-72B 是一个高性能的蒸馏模型，基于Qwen2.5-72B使用强化学习技术衍生而来。它针对数学推理和常识知识任务进行了专门优化，在保持计算效率的同时，显著提升了推理能力。

🚀 快速开始

本地运行方法

使用Hugging Face的Transformers库

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
    {"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

使用vLLM或SGLang

你可以使用 vLLM 轻松启动服务：

vllm serve YiXin-AILab/YiXin-Distill-Qwen-72B --tensor-parallel-size 4 --max-model-len 32768 --enforce-eager

你也可以使用 SGLang 启动服务：

python3 -m sglang.launch_server --model YiXin-AILab/YiXin-Distill-Qwen-72B --trust-remote-code --tp 4 --port 8000

然后你可以通过以下方式访问聊天API：

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "YiXin-AILab/YiXin-Distill-Qwen-72B",
    "messages": [
        {"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
        {"role": "user", "content": "8+8=?"}
    ]
    }'

✨ 主要特性

高性能蒸馏模型：基于Qwen2.5-72B，使用强化学习技术，在数学推理和常识知识任务上表现出色。
精心优化：针对数学推理和常识知识任务进行专门优化，提升推理能力的同时保持计算效率。
先进的蒸馏方法：采用渐进式两阶段蒸馏方法，通过智能数据选择和优化迭代提升模型性能。

📦 安装指南

文档未提及具体安装步骤，可参考上述快速开始部分的运行方法。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
    {"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

📚 详细文档

模型概述

YiXin-Distill-Qwen-72B：用于数学和通用推理的高性能蒸馏模型，它基于Qwen2.5-72B使用强化学习技术衍生而来。该模型针对数学推理和常识知识任务进行了专门优化，利用先进的蒸馏技术，在保持计算效率的同时增强了推理能力。基于强大的Qwen模型基础，它旨在在各种基准评估中实现最先进的性能。我们的基准评估表明，YiXin-Distill-Qwen-72B表现出色，在关键的数学和通用推理任务中比同类蒸馏模型有显著提升，平均提升了5至11个百分点。

训练详情

数据收集与处理

YiXin-Distill-Qwen-72B在精心策划的高质量数据集上进行训练，该数据集旨在提高数学推理和常识知识理解能力。数据处理流程遵循结构化的多阶段方法，以确保模型的最佳性能，同时减少噪声。

数据集聚合：基于现有的高质量开源数据集构建，涵盖多个领域，包括数学和常识知识。
数据过滤和质量评估：我们实施了一个全面的质量控制框架，利用DeepSeek-R1作为大语言模型评判器来评估数据质量。评估标准包括：
- 难度级别：将数据样本分为简单、中等和困难三个等级，以确保在不同复杂度级别上的平衡表示。
- 真实值验证：采用严格的验证流程，确保数据集中答案的正确性。
- 质量评分：根据每个提示 - 响应对的复杂性、指令清晰度以及增强推理能力的潜力进行评估。
- 响应长度分析：排除未达到最小长度要求的响应，因为它们通常缺乏足够的信息来提供有意义的训练信号。
验证和细化：对于主观答案，我们使用基于大语言模型的评判器来验证响应的质量和相关性。数学内容经过额外的验证程序：
- 系统地验证数学答案及其相应的解决方案。
- 使用评判模型评估每个解决方案过程，以确保数学推理的逻辑一致性和正确性。
- 对于存在逻辑漏洞或推理模式错误的解决方案，要么进行纠正，要么从训练集中移除。

蒸馏过程

YiXin-Distill-Qwen-72B采用渐进式两阶段蒸馏方法，通过智能数据选择和优化迭代提升模型性能。训练框架不断识别和移除高置信度样本（即模型已经表现出色的情况），以减轻过拟合，同时迭代优化低置信度样本，以强化薄弱的推理模式。通过多次微调循环和质量评估，该模型在数学和通用推理基准测试中实现了效率和准确性的平衡提升。

评估结果

YiXin-Distill-Qwen-72B在数学推理和常识知识任务上与多个模型进行了基准测试，包括QwQ-32B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1：

评估结果

属性	详情
模型类型	YiXin-Distill-Qwen-72B
训练数据	精心策划的高质量数据集，涵盖数学和常识知识领域

指标	QwQ - 32B	DeepSeek - R1 - Distill - Qwen - 32B	DeepSeek - R1 - Distill - Llama - 70B	DeepSeek - R1	YiXin - Distill - Qwen - 72B
MATH - 500	96.2	91.2	94.0	94.4	97.0
GPQA - Diamond	62.6	62.1	62.6	74.8	69.2
AIME - 24	73.3	66.7	70.0	80.0	76.7
AIME - 25	63.3	60.0	46.7	63.3	73.3
MMLU - Pro	86.2	78.3	80.3	92.4	92.6
平均	76.3	71.7	70.7	81.0	81.8

YiXin-Distill-Qwen-72B在数学推理和常识知识任务上表现出显著的提升。

局限性

尽管YiXin-Distill-Qwen-72B表现出色，但它也存在一定的局限性：

潜在的安全问题：YiXin-Distill-Qwen-72B可能容易受到对抗攻击、提示注入和数据泄露的影响。对于敏感部署，建议采取适当的安全措施。
特定领域偏差：在不同领域的性能可能会有所不同，特别是在训练数据中代表性不足的领域。
蒸馏过程中的潜在损失：在蒸馏过程中，教师模型的一些细微推理能力可能会降低。

引用

如果你在研究中使用了YiXin-Distill-Qwen-72B，请适当引用这项工作：

@misc{yixindistillqwen-72b,
  title={YiXin-Distill-Qwen-72B: A High-Performance Distilled Model for Mathematical and General Reasoning},
  author={YiXin-AILab},
  year={2025},
  url={https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B}
}