模型简介
模型特点
模型能力
使用案例
🚀 Phi-4-mini-reasoning
Phi-4-mini-reasoning 是一个轻量级的开源模型,基于合成数据构建,专注于高质量、富含推理的数据,并针对更高级的数学推理能力进行了进一步微调。该模型支持 128K 令牌上下文长度,适用于内存/计算受限环境和低延迟场景下的多步骤、逻辑密集型数学问题解决任务。
🚀 快速开始
模型集成与环境要求
Phi-4-mini-reasoning 已集成到 transformers
的 4.51.3
版本中。可以使用 pip list | grep transformers
验证当前 transformers
版本。Python 3.8 和 3.10 是最佳选择。所需的软件包列表如下:
flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0
推理示例
以下是使用 transformers
进行推理的 Python 代码示例:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)
model_id = "microsoft/Phi-4-mini-reasoning"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [{
"role": "user",
"content": "How to solve 3*x^2+4*x+5=1?"
}]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt",
)
outputs = model.generate(
**inputs.to(model.device),
max_new_tokens=32768,
temperature=0.8,
top_p=0.95,
do_sample=True,
)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])
✨ 主要特性
- 专注数学推理:专为多步骤、逻辑密集型数学问题解决任务设计,适用于内存/计算受限环境和低延迟场景。
- 支持长上下文:支持 128K 令牌上下文长度,能够在长文本中保持上下文理解。
- 高性能表现:在多种推理基准测试中,与大型模型相比,具有相似的多语言理解和推理能力。
- 轻量级设计:参数仅 3.8B,平衡了推理能力和效率,适用于教育应用、嵌入式辅导以及边缘或移动系统的轻量级部署。
📦 安装指南
依赖安装
确保安装了以下依赖项:
flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0
可以使用以下命令安装:
pip install flash_attn==2.7.4.post1 torch==2.5.1 transformers==4.51.3 accelerate==1.3.0
💻 使用示例
基础用法
输入格式 - 聊天格式
该格式用于一般对话和指令:
<|system|>Your name is Phi, an AI math expert developed by Microsoft.<|end|><|user|>How to solve 3*x^2+4*x+5=1?<|end|><|assistant|>
高级用法
在实际应用中,可以根据需要调整推理参数,如 max_new_tokens
、temperature
和 top_p
等,以获得不同的输出效果。
📚 详细文档
预期用途
主要用例
Phi-4-mini-reasoning 旨在解决内存/计算受限环境和低延迟场景下的多步骤、逻辑密集型数学问题。具体用例包括形式证明生成、符号计算、高级应用题以及各种数学推理场景。
用例考虑
该模型仅针对数学推理进行设计和测试,并非适用于所有下游用途。开发者在选择用例时,应考虑语言模型的常见局限性以及不同语言之间的性能差异,并在特定下游用例中使用之前,评估和缓解准确性、安全性和公平性问题,特别是在高风险场景中。
发布说明
本次发布的 Phi-4-mini-reasoning 是一个基于变压器的紧凑型语言模型,针对数学推理进行了优化。该模型通过使用更强大模型生成的合成数学数据进行微调,提高了推理性能。
模型质量
通过与一组模型在各种推理基准测试中的比较,3.8B 参数的 Phi-4-mini-reasoning 模型在多语言理解和推理能力方面达到了与大型模型相似的水平。具体比较结果如下:
模型 | AIME | MATH-500 | GPQA Diamond |
---|---|---|---|
o1-mini* | 63.6 | 90.0 | 60.0 |
DeepSeek-R1-Distill-Qwen-7B | 53.3 | 91.4 | 49.5 |
DeepSeek-R1-Distill-Llama-8B | 43.3 | 86.9 | 47.3 |
Bespoke-Stratos-7B* | 20.0 | 82.0 | 37.8 |
OpenThinker-7B* | 31.3 | 83.0 | 42.4 |
Llama-3.2-3B-Instruct | 6.7 | 44.4 | 25.3 |
Phi-4-Mini (基础模型, 3.8B) | 10.0 | 71.8 | 36.9 |
Phi-4-mini-reasoning (3.8B) | 57.5 | 94.6 | 52.0 |
训练
模型信息
- 架构:与 Phi-4-Mini 共享相同架构,是一个 3.8B 参数的密集型仅解码器变压器模型。
- 输入:文本,最适合使用聊天格式的提示。
- 上下文长度:128K 令牌
- GPU:128 个 H100-80G
- 训练时间:2 天
- 训练数据:150B 令牌
- 输出:生成的文本
- 训练日期:2024 年 2 月
- 状态:这是一个基于离线数据集训练的静态模型,公开可用数据的截止日期为 2025 年 2 月。
- 支持语言:英语
- 发布日期:2025 年 4 月
训练数据集
训练数据仅由更强大、更先进的推理模型 Deepseek-R1 生成的合成数学内容组成。该合成数据集包含超过一百万个不同难度级别的数学问题(从中学生到博士级别)。
软件与硬件要求
软件
硬件
默认情况下,Phi-4-mini-reasoning 模型使用闪存注意力机制,需要特定类型的 GPU 硬件才能运行。已测试的 GPU 类型包括:
- NVIDIA A100
- NVIDIA H100
如果要在 NVIDIA V100 或更早一代的 GPU 上运行模型,可以在调用 AutoModelForCausalLM.from_pretrained()
时使用 attn_implementation="eager"
。
安全评估与红队测试
Phi-4 系列模型采用了强大的安全后训练方法,结合了 SFT、DPO 和 RLHF 等技术,利用人类标记和合成的英语数据集进行安全对齐。
负责任的 AI 考虑
与其他语言模型一样,Phi 系列模型可能存在不公平、不可靠或冒犯性的行为。开发者在使用时应考虑以下问题:
- 服务质量:模型主要在英语文本和一些多语言文本上进行训练,非英语语言的性能可能较差,且不同英语变体之间也可能存在性能差异。
- 多语言性能和安全差距:尽管努力使语言模型在不同语言中更广泛可用,但 Phi 4 模型在多语言发布中仍面临一些挑战。
- 伤害表示和刻板印象延续:模型可能过度或不足地代表某些人群,强化负面刻板印象。
- 不适当或冒犯性内容:模型可能产生不适当或冒犯性内容,在敏感场景中部署时需要额外的缓解措施。
- 信息可靠性:语言模型可能生成无意义或不准确的内容。
- 选举信息可靠性:模型在回答选举关键查询时可能存在较高的错误率,用户应核实相关信息。
- 代码范围有限:模型的训练数据主要基于 Python 和常见包,生成的脚本可能需要手动验证。
- 长对话问题:在长对话中,模型可能生成重复、无用或不一致的回复。
🔧 技术细节
分词器
Phi-4-mini-reasoning 支持最大 200064
个令牌的词汇量。分词器文件 已经提供了可用于下游微调的占位符令牌,也可以根据模型的词汇量进行扩展。
输入格式
由于训练数据的性质,Phi-4-mini-instruct 模型最适合使用特定格式的提示。主要格式包括聊天格式,用于一般对话和指令。
推理与 transformers
Phi-4-mini-reasoning 已集成到 transformers
的 4.51.3
版本中。可以使用 Python 3.8 或 3.10 进行最佳推理。
基准测试方法
在基准测试中,我们尽量保持提示不变,以确保不同模型之间的公平比较。同时,使用相同的生成配置,如最大序列长度(32768)和温度,进行公平评估。具体评估使用了三个流行的数学基准测试:Math-500、AIME 2024 和 GPQA Diamond。
📄 许可证
该模型遵循 MIT 许可证。
商标说明
本项目可能包含项目、产品或服务的商标或标志。使用 Microsoft 商标或标志需遵循 Microsoft 的商标和品牌指南。在修改版本的项目中使用 Microsoft 商标或标志不得造成混淆或暗示 Microsoft 的赞助。任何第三方商标或标志的使用需遵循第三方的政策。
查看集合
查看 我们的集合,获取包括 GGUF、4 位和 16 位格式在内的所有版本的 Phi-4。
学习指南
学习如何正确运行 Phi-4 推理 - 阅读我们的指南。
Unsloth Dynamic 2.0
Unsloth Dynamic 2.0 实现了卓越的准确性,优于其他领先的量化方法。
社区链接
免费微调
- 免费使用我们的 Google Colab 笔记本 对 Phi-4 (14B) 进行微调。
- 阅读我们关于 Phi-4 支持和错误修复的博客:unsloth.ai/blog/phi4
- 在 文档 中查看我们的其他笔记本。
- 运行并将微调后的模型导出到 Ollama、llama.cpp 或 HF。
性能对比
Unsloth 支持的模型 | 免费笔记本 | 性能 | 内存使用 |
---|---|---|---|
Phi-4 (14B) | 👉 在 Colab 上开始 | 快 2 倍 | 减少 50% |
Qwen3 (14B) | 👉 在 Colab 上开始 | 快 3 倍 | 减少 70% |
GRPO with Phi-4 (14B) | 👉 在 Colab 上开始 | 快 3 倍 | 减少 80% |
Llama-3.2 (3B) | 👉 在 Colab 上开始 | 快 2 倍 | 减少 80% |
Llama-3.2 (11B 视觉) | 👉 在 Colab 上开始 | 快 2 倍 | 减少 60% |
Qwen2.5 (7B) | 👉 在 Colab 上开始 | 快 2 倍 | 减少 60% |
相关链接
Phi-4 模型系列
- [Phi-4-reasoning]
- [multimodal-instruct | onnx]
- [mini-instruct | onnx]



