许可证: mit
许可证链接: https://huggingface.co/microsoft/Phi-4-reasoning-plus/resolve/main/LICENSE
语言:
- 英文
基础模型:
- microsoft/phi-4
任务标签: 文本生成
标签:
- phi
- 自然语言处理
- 数学
- 代码
- 聊天
- 对话
- 推理
推理参数:
温度: 0
小部件示例:
- 消息:
- 角色: 用户
内容: x^2的导数是什么?
库名称: transformers
Phi-4推理增强版模型卡
Phi-4推理技术报告
模型概述
|
|
开发团队 |
微软研究院 |
描述 |
Phi-4推理增强版是基于Phi-4进行监督微调的最先进开源推理模型,训练数据包含思维链轨迹数据集和强化学习数据。监督微调数据集融合了合成提示词和来自公共领域网站的高质量过滤数据,重点关注数学、科学和编程能力,同时包含安全性和负责任AI的对齐数据。该方法旨在确保小型高效模型通过高质量和高级推理数据进行训练。Phi-4推理增强版额外采用强化学习训练,因此准确率更高,但平均生成token数量增加50%,导致延迟更高。 |
架构 |
基础架构与先前发布的Phi-4相同,140亿参数,密集解码器专用Transformer模型 |
输入 |
文本,最适合聊天格式的提示 |
上下文长度 |
32k token |
GPU配置 |
32块H100-80G |
训练时长 |
2.5天 |
训练数据 |
160亿token,约83亿唯一token |
输出 |
根据输入生成的文本。模型响应包含两个部分:思维链推理区块和总结区块 |
训练周期 |
2025年1月–2025年4月 |
状态 |
基于2025年3月及之前公开数据的静态离线训练模型 |
发布日期 |
2025年4月30日 |
许可证 |
MIT |
预期用途
|
|
主要应用场景 |
本模型旨在加速语言模型研究,作为生成式AI功能的基础组件。适用于需要以下特性的英语通用AI系统和应用场景:
1. 内存/计算资源受限环境 2. 延迟敏感场景 3. 推理与逻辑需求 |
非适用场景 |
本模型专为数学推理设计测试。开发者应注意语言模型的通用局限性,在特定下游应用场景中需评估和缓解准确性、安全性和公平性问题,特别是高风险场景。开发者应了解并遵守适用法律法规(包括隐私、贸易合规等),尤其注意模型主要面向英语场景。请参阅下方"负责任AI注意事项"章节获取更多指导。本模型卡内容不应被解释为对模型所采用许可证的限制或修改。 |
使用指南
[!重要提示]
为充分发挥模型能力,推理时必须设置temperature=0.8
、top_k=50
、top_p=0.95
和do_sample=True
。复杂查询建议设置max_new_tokens=32768
以支持更长思维链(CoT)。
实验表明Phi-4推理增强版在推理密集型任务中表现优异。我们将最大token数扩展至64k时,模型仍能保持长序列处理的连贯性和逻辑一致性,这使其成为需要深度多步推理或大上下文任务的理想选择。
输入格式
根据训练数据特性,推理时必须使用ChatML模板及以下系统提示:
<|im_start|>system<|im_sep|>
您是由微软训练的语言模型Phi,旨在帮助用户。作为助手,您需要通过系统化思考流程深入分析问题,最终提供精确解决方案。这需要经历分析、总结、探索、重评估、反思、回溯和迭代的完整循环。请将回答分为"思考"和"解决方案"两部分:<think>{思考过程}</think>{解决方案}。在思考部分逐步详述推理流程,包括问题分析、相关发现总结、新想法构思、当前步骤验证、错误修正和步骤回溯。解决方案部分需基于思考阶段的各种尝试,系统化呈现最终结论,确保逻辑准确、步骤清晰。现在请按上述规范解答下列问题:<|im_end|>
<|im_start|>user<|im_sep|>
x^2的导数是什么?<|im_end|>
<|im_start|>assistant<|im_sep|>
使用transformers
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-4-reasoning-plus")
model = AutoModelForCausalLM.from_pretrained("microsoft/Phi-4-reasoning-plus", device_map="auto", torch_dtype="auto")
messages = [
{"role": "system", "content": "您是由微软训练的语言模型Phi..."},
{"role": "user", "content": "x^2的导数是什么?"},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(
inputs.to(model.device),
max_new_tokens=4096,
temperature=0.8,
top_k=50,
top_p=0.95,
do_sample=True,
)
print(tokenizer.decode(outputs[0]))
使用vllm
vllm serve microsoft/Phi-4-reasoning-plus --enable-reasoning --reasoning-parser deepseek_r1
Phi-4推理增强版也兼容Ollama、llama.cpp等Phi-4适配框架
数据概况
训练数据集
训练数据包含数学、科学和编程领域的问答及聊天格式数据,源自高质量过滤网络数据,并经过合成数据生成管道处理。额外加入提升真实性和安全性的数据。
基准测试集
使用开源Eureka评估套件和内部基准测试模型能力,主要包括:
推理任务:
- AIME 2022-2025:数学奥赛题
- GPQA-Diamond:研究生级科学难题
- OmniMath:4000+奥数题人工标注集
- LiveCodeBench:编程竞赛代码生成基准
- 3SAT与TSP:算法问题求解
- BA Calendar:规划任务
- Maze与SpatialMap:空间理解
通用基准:
- Kitab:信息检索
- IFEval与ArenaHard:指令遵循
- PhiBench:内部基准
- FlenQA:提示长度影响
- HumanEvalPlus:功能性代码生成
- MMLU-Pro:多任务语言理解
安全性
实施方案
通过监督微调(SFT)采用健壮的安全后训练方案,结合开源和内部生成的合成提示,确保响应符合微软安全准则,包括:用户理解与清晰度、安全与伦理准则、限制声明与知识范围、复杂敏感话题处理、安全尊重交互、准则保密性与思维链保密性。
安全评估与红队测试
发布前采用多维评估:
- 定量评估:开源安全基准+对抗对话模拟工具
- 定性评估:与微软独立AI红队(AIRT)合作,测试常规和对抗场景下的安全风险,包括:基础稳健性、越狱攻击、仇恨/暴力/性内容/自残等有害内容,以及受保护材料版权违规。另在针对少数群体的Toxigen偏见毒性基准测试表现。
详见技术报告获取安全对齐细节。
模型质量
下表展示模型在代表性基准的表现(数值越高越好):
|
AIME 24 |
AIME 25 |
OmniMath |
GPQA-D |
LiveCodeBench |
Phi-4推理基础版 |
75.3 |
62.9 |
76.6 |
65.8 |
53.8 |
Phi-4推理增强版 |
81.3 |
78.0 |
81.9 |
68.9 |
53.1 |
...(其他模型对比数据) |
|
|
|
|
|
通用能力基准对比:
|
Phi-4 |
Phi-4推理版 |
增强版 |
o3-mini |
GPT-4o |
FlenQA[3K子集] |
82.0 |
97.7 |
97.9 |
96.8 |
90.8 |
...(其他指标对比) |
|
|
|
|
|
尽管仅140亿参数,Phi-4推理系列在广泛推理任务中显著优于DeepSeek-R1蒸馏70B等更大开源模型,接近完整版DeepSeek R1性能。在算法求解(3SAT、TSP)和规划(BA-Calendar)等新推理基准上展现出强大的泛化能力。即使针对指令遵循等非推理通用任务,相较Phi-4也有显著提升。
负责任AI注意事项
需注意的潜在限制行为包括:
- 服务质量:主要面向英语,其他语言性能下降
- 危害表征与刻板印象:可能过度/不足表征某些群体
- 不当内容:可能生成不适当内容
- 信息可靠性:可能产生不准确或过时内容
- 选举信息:选举关键查询错误率较高
- 代码局限:主要基于Python常见包,其他语言/包需人工验证
建议开发者:
- 高风险场景(法律地位/资源分配等)需额外评估和去偏
- 敏感专业领域(法律/医疗建议)需额外保障措施
- 构建应用级反馈机制实现检索增强生成(RAG)
- 使用Azure AI内容安全等安全服务
- 防范欺诈/垃圾邮件/恶意软件等滥用行为