Phi-4-mini-reasoning开源模型 - 轻量级设计免费助力数学推理增强

首页

Phi 4 Mini Reasoning GGUF

由 unsloth 开发

Phi-4-mini-reasoning是一个基于合成数据的轻量级开放模型，专注于高质量、密集推理数据，并进一步微调以增强数学推理能力。

大型语言模型支持多种语言开源协议:MIT #数学推理 #轻量级模型 #多步逻辑推理

下载量 21.71k

发布时间 : 5/1/2025

模型简介

该模型属于Phi-4模型家族，支持128K令牌上下文长度，专为在内存/计算受限环境和延迟受限场景下进行多步骤、逻辑密集的数学问题解决任务而设计。

模型特点

轻量级数学推理

专为数学推理优化，在计算或延迟受限环境中提供高质量、逐步的问题解决方案。

长上下文支持

支持128K令牌的上下文长度，适合处理复杂的多步骤推理任务。

高效推理

3.8B参数的紧凑模型在推理能力和效率之间取得平衡，适合边缘或移动系统部署。

合成数据训练

使用来自更强大模型的合成数学数据进行微调，提高了推理性能。

模型能力

数学问题解决

形式化证明生成

符号计算

高级文字问题解答

多步骤逻辑推理

使用案例

教育

数学辅导

作为嵌入式辅导系统，帮助学生解决复杂的数学问题。

提供逐步的问题解决方案

边缘计算

移动设备数学应用

在移动设备上部署轻量级数学推理助手。

低延迟的数学问题解答

🚀 Phi-4-mini-reasoning

Phi-4-mini-reasoning 是一个轻量级的开源模型，基于合成数据构建，专注于高质量、富含推理的数据，并针对更高级的数学推理能力进行了进一步微调。该模型支持 128K 令牌上下文长度，适用于内存/计算受限环境和低延迟场景下的多步骤、逻辑密集型数学问题解决任务。

🚀 快速开始

模型集成与环境要求

Phi-4-mini-reasoning 已集成到 transformers 的 4.51.3 版本中。可以使用 pip list | grep transformers 验证当前 transformers 版本。Python 3.8 和 3.10 是最佳选择。所需的软件包列表如下：

flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0

推理示例

以下是使用 transformers 进行推理的 Python 代码示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)

model_id = "microsoft/Phi-4-mini-reasoning"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype="auto",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [{
    "role": "user",
    "content": "How to solve 3*x^2+4*x+5=1?"
}]   
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt",
)

outputs = model.generate(
    **inputs.to(model.device),
    max_new_tokens=32768,
    temperature=0.8,
    top_p=0.95,
    do_sample=True,
)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])

print(outputs[0])

✨ 主要特性

专注数学推理：专为多步骤、逻辑密集型数学问题解决任务设计，适用于内存/计算受限环境和低延迟场景。
支持长上下文：支持 128K 令牌上下文长度，能够在长文本中保持上下文理解。
高性能表现：在多种推理基准测试中，与大型模型相比，具有相似的多语言理解和推理能力。
轻量级设计：参数仅 3.8B，平衡了推理能力和效率，适用于教育应用、嵌入式辅导以及边缘或移动系统的轻量级部署。

📦 安装指南

依赖安装

确保安装了以下依赖项：

flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0

可以使用以下命令安装：

pip install flash_attn==2.7.4.post1 torch==2.5.1 transformers==4.51.3 accelerate==1.3.0

💻 使用示例

基础用法

输入格式 - 聊天格式

该格式用于一般对话和指令：

<|system|>Your name is Phi, an AI math expert developed by Microsoft.<|end|><|user|>How to solve 3*x^2+4*x+5=1?<|end|><|assistant|>

高级用法

在实际应用中，可以根据需要调整推理参数，如 max_new_tokens、temperature 和 top_p 等，以获得不同的输出效果。

📚 详细文档

预期用途

主要用例

Phi-4-mini-reasoning 旨在解决内存/计算受限环境和低延迟场景下的多步骤、逻辑密集型数学问题。具体用例包括形式证明生成、符号计算、高级应用题以及各种数学推理场景。

用例考虑

该模型仅针对数学推理进行设计和测试，并非适用于所有下游用途。开发者在选择用例时，应考虑语言模型的常见局限性以及不同语言之间的性能差异，并在特定下游用例中使用之前，评估和缓解准确性、安全性和公平性问题，特别是在高风险场景中。

发布说明

本次发布的 Phi-4-mini-reasoning 是一个基于变压器的紧凑型语言模型，针对数学推理进行了优化。该模型通过使用更强大模型生成的合成数学数据进行微调，提高了推理性能。

模型质量

通过与一组模型在各种推理基准测试中的比较，3.8B 参数的 Phi-4-mini-reasoning 模型在多语言理解和推理能力方面达到了与大型模型相似的水平。具体比较结果如下：

模型	AIME	MATH-500	GPQA Diamond
o1-mini*	63.6	90.0	60.0
DeepSeek-R1-Distill-Qwen-7B	53.3	91.4	49.5
DeepSeek-R1-Distill-Llama-8B	43.3	86.9	47.3
Bespoke-Stratos-7B*	20.0	82.0	37.8
OpenThinker-7B*	31.3	83.0	42.4
Llama-3.2-3B-Instruct	6.7	44.4	25.3
Phi-4-Mini (基础模型, 3.8B)	10.0	71.8	36.9
Phi-4-mini-reasoning (3.8B)	57.5	94.6	52.0

训练

模型信息

架构：与 Phi-4-Mini 共享相同架构，是一个 3.8B 参数的密集型仅解码器变压器模型。
输入：文本，最适合使用聊天格式的提示。
上下文长度：128K 令牌
GPU：128 个 H100-80G
训练时间：2 天
训练数据：150B 令牌
输出：生成的文本
训练日期：2024 年 2 月
状态：这是一个基于离线数据集训练的静态模型，公开可用数据的截止日期为 2025 年 2 月。
支持语言：英语
发布日期：2025 年 4 月

训练数据集

训练数据仅由更强大、更先进的推理模型 Deepseek-R1 生成的合成数学内容组成。该合成数据集包含超过一百万个不同难度级别的数学问题（从中学生到博士级别）。

软件与硬件要求

软件

硬件

默认情况下，Phi-4-mini-reasoning 模型使用闪存注意力机制，需要特定类型的 GPU 硬件才能运行。已测试的 GPU 类型包括：

NVIDIA A100
NVIDIA H100

如果要在 NVIDIA V100 或更早一代的 GPU 上运行模型，可以在调用 AutoModelForCausalLM.from_pretrained() 时使用 attn_implementation="eager"。

安全评估与红队测试

Phi-4 系列模型采用了强大的安全后训练方法，结合了 SFT、DPO 和 RLHF 等技术，利用人类标记和合成的英语数据集进行安全对齐。

负责任的 AI 考虑

与其他语言模型一样，Phi 系列模型可能存在不公平、不可靠或冒犯性的行为。开发者在使用时应考虑以下问题：

服务质量：模型主要在英语文本和一些多语言文本上进行训练，非英语语言的性能可能较差，且不同英语变体之间也可能存在性能差异。
多语言性能和安全差距：尽管努力使语言模型在不同语言中更广泛可用，但 Phi 4 模型在多语言发布中仍面临一些挑战。
伤害表示和刻板印象延续：模型可能过度或不足地代表某些人群，强化负面刻板印象。
不适当或冒犯性内容：模型可能产生不适当或冒犯性内容，在敏感场景中部署时需要额外的缓解措施。
信息可靠性：语言模型可能生成无意义或不准确的内容。
选举信息可靠性：模型在回答选举关键查询时可能存在较高的错误率，用户应核实相关信息。
代码范围有限：模型的训练数据主要基于 Python 和常见包，生成的脚本可能需要手动验证。
长对话问题：在长对话中，模型可能生成重复、无用或不一致的回复。

🔧 技术细节

分词器

Phi-4-mini-reasoning 支持最大 200064 个令牌的词汇量。分词器文件已经提供了可用于下游微调的占位符令牌，也可以根据模型的词汇量进行扩展。

输入格式

由于训练数据的性质，Phi-4-mini-instruct 模型最适合使用特定格式的提示。主要格式包括聊天格式，用于一般对话和指令。

推理与 `transformers`

Phi-4-mini-reasoning 已集成到 transformers 的 4.51.3 版本中。可以使用 Python 3.8 或 3.10 进行最佳推理。

基准测试方法

在基准测试中，我们尽量保持提示不变，以确保不同模型之间的公平比较。同时，使用相同的生成配置，如最大序列长度（32768）和温度，进行公平评估。具体评估使用了三个流行的数学基准测试：Math-500、AIME 2024 和 GPQA Diamond。

📄 许可证

该模型遵循 MIT 许可证。

商标说明

本项目可能包含项目、产品或服务的商标或标志。使用 Microsoft 商标或标志需遵循 Microsoft 的商标和品牌指南。在修改版本的项目中使用 Microsoft 商标或标志不得造成混淆或暗示 Microsoft 的赞助。任何第三方商标或标志的使用需遵循第三方的政策。

查看集合

查看我们的集合，获取包括 GGUF、4 位和 16 位格式在内的所有版本的 Phi-4。

学习指南

学习如何正确运行 Phi-4 推理 - 阅读我们的指南。

Unsloth Dynamic 2.0

Unsloth Dynamic 2.0 实现了卓越的准确性，优于其他领先的量化方法。

社区链接

免费微调

免费使用我们的 Google Colab 笔记本对 Phi-4 (14B) 进行微调。
阅读我们关于 Phi-4 支持和错误修复的博客：unsloth.ai/blog/phi4
在文档中查看我们的其他笔记本。
运行并将微调后的模型导出到 Ollama、llama.cpp 或 HF。

性能对比

Unsloth 支持的模型	免费笔记本	性能	内存使用
Phi-4 (14B)	👉 在 Colab 上开始	快 2 倍	减少 50%
Qwen3 (14B)	👉 在 Colab 上开始	快 3 倍	减少 70%
GRPO with Phi-4 (14B)	👉 在 Colab 上开始	快 3 倍	减少 80%
Llama-3.2 (3B)	👉 在 Colab 上开始	快 2 倍	减少 80%
Llama-3.2 (11B 视觉)	👉 在 Colab 上开始	快 2 倍	减少 60%
Qwen2.5 (7B)	👉 在 Colab 上开始	快 2 倍	减少 60%