许可证: mit
库名称: transformers
流水线标签: text-generation
基础模型:
- microsoft/MAI-DS-R1
标签:
- deepseek
- unsloth
- microsoft
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后续训练,以提升其在受限话题上的响应能力并优化其风险表现,同时保持其推理能力和竞争性能。
模型详情
模型描述
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后续训练,以填补先前版本模型的信息空白并优化其风险表现,同时保留 R1 的推理能力。该模型使用了来自 Tulu 3 SFT 数据集的 11 万条安全性与合规性示例,以及内部开发的约 35 万条多语言示例数据集,涵盖报告存在偏见的各种主题。
MAI-DS-R1 成功解除了原始 R1 模型中大部分先前受限的查询,同时在相关安全基准测试中优于最近发布的 R1-1776 模型(由 Perplexity 进行后续训练)。这些成果是在保留原始 DeepSeek-R1 通用推理能力的基础上实现的。
请注意:微软已对该模型进行后续训练以解决其输出相关的某些限制,但模型的先前限制和注意事项仍然存在,包括安全性考虑。
用途
直接使用
MAI-DS-R1 保留了 DeepSeek-R1 的通用推理能力,可用于广泛的语言理解和生成任务,尤其是在复杂推理和问题解决方面。主要直接用途包括:
-
通用文本生成与理解 —— 针对广泛提示生成连贯、上下文相关的文本。包括参与对话、撰写文章或根据给定提示续写故事。
-
通用知识任务 —— 回答需要事实知识的开放领域问题。
-
推理与问题解决 —— 处理多步推理任务,如数学应用题或逻辑谜题,采用思维链策略。
-
代码生成与理解 —— 通过生成代码片段或解释代码协助编程任务。
-
科学与学术应用 —— 在 STEM 和研究领域协助结构化问题解决。
下游使用 (可选)
该模型可作为基础,进一步微调用于特定领域的推理任务,如数学自动辅导系统、编码助手以及科学或技术领域的研究工具。
超出范围的使用
某些应用领域因伦理/安全考虑或模型在这些领域缺乏必要的可靠性而被视为超出范围。以下用途超出范围:
-
医疗或健康建议 —— 该模型并非医疗设备,无法保证提供准确的医疗诊断或安全的治疗建议。
-
法律建议 —— 该模型并非律师,不应依赖其提供明确的法律建议、解释法律或自行做出法律决策。
-
安全关键系统 —— 该模型不适用于故障可能导致伤害、生命损失或重大财产损失的自主系统。包括无人驾驶车辆、飞机控制、医疗生命支持系统或无人工监督的工业控制。
-
高风险决策支持 —— 不应依赖该模型做出影响财务、安全或个人福祉的决策,如财务规划或投资建议。
-
恶意或不道德使用 —— 不得使用该模型生成有害、非法、欺骗性或不道德的内容,包括仇恨言论、暴力、骚扰或侵犯隐私或知识产权的内容。
偏见、风险与限制
-
偏见:模型可能保留训练数据和原始 DeepSeek-R1 中存在的偏见,尤其是在文化和人口统计方面。
-
风险:模型仍可能虚构事实、易受对抗性提示影响,或在某些条件下生成不安全、偏见或有害内容。开发者应实施内容审核和使用监控以减少滥用。
-
限制:MAI-DS-R1 与 DeepSeek-R1 共享知识截止点,可能缺乏对近期事件或特定领域事实的了解。
建议
为确保负责任的使用,我们建议以下措施:
-
透明说明限制:建议明确告知用户模型的潜在偏见和限制。
-
人工监督与验证:直接和下游用户应在敏感或高风险场景中部署模型时实施人工审查或自动验证输出。
-
使用保障措施:开发者应集成内容过滤、提示工程最佳实践和持续监控,以降低风险并确保模型的输出符合预期的安全和质量标准。
-
法律与法规合规:模型可能输出政治敏感内容(如中国治理、历史事件),可能与当地法律或平台政策冲突。运营者必须确保符合地区法规。
评估
测试数据、因素与指标
测试数据
模型在多种基准测试中进行了评估,涵盖不同任务并解决性能和危害缓解问题。关键基准包括:
-
公共基准:涵盖广泛任务,如自然语言推理、问答、数学推理、常识推理、代码生成和代码完成。评估模型的通用知识和推理能力。
-
阻塞测试集:包含来自 R1 的 3.3k 条各种受限主题的提示,涵盖 11 种语言。评估模型在不同语言中解除先前受限内容的能力。
-
危害缓解测试集:来自 HarmBench 数据集的 拆分,包含 320 条查询,分为三类功能类别:标准、上下文和版权。查询涵盖八种语义类别,如错误信息/虚假信息、化学/生物威胁、非法活动、有害内容、版权侵犯、网络犯罪和骚扰。评估模型生成有害或不安全内容的泄漏率。
因素
以下因素可能影响 MAI-DS-R1 的行为和性能:
-
输入主题与敏感性:模型明确调整为自由讨论先前受限的主题。在此类主题上,模型现在会提供信息,而基础模型可能回避。但对于真正有害或明确禁止的内容(如暴力指令),模型仍保持限制性。
-
语言:尽管 MAI-DS-R1 在多语言数据上进行了后续训练,它可能继承原始 DeepSeek-R1 模型的限制,性能可能在英语和中文中最强。
-
提示复杂性与所需推理:模型在需要推理的复杂查询上表现良好,但非常长或复杂的提示仍可能构成挑战。
-
用户指令与角色提示:作为面向聊天的 LLM,MAI-DS-R1 的响应可由系统或开发者提供的指令(如定义其角色和风格的系统提示)和用户的措辞塑造。开发者应提供清晰的指令以引导模型行为。
指标
-
公共基准:
- 准确率:模型输出与正确答案匹配的问题百分比。
- Pass@1:模型首次尝试生成通过所有测试用例的正确解决方案的问题百分比。
-
阻塞评估:
- 满意度(内部指标,衡量与问题的相关性,范围 [0,4]):旨在衡量解除阻塞的答案是否回答了问题,而非生成无关内容。
- 响应百分比:成功解除阻塞的先前受限样本比例。
-
危害缓解评估:
- 攻击成功率:引发模型行为的测试用例百分比。按功能或语义类别评估。
- 微观攻击成功率:所有类别的攻击成功率总平均值。
结果
通用知识与推理评估
响应性评估
危害缓解评估
总结
-
通用知识与推理:MAI-DS-R1 与 DeepSeek-R1 表现相当,略优于 R1-1776,尤其在 mgsm_chain_of_thought_zh 中表现突出,而 R1-1776 在此有明显退步。
-
受限主题:MAI-DS-R1 阻塞了 99.3% 的样本,与 R1-1776 相当,并获得了更高的满意度分数,可能是因为响应更相关。
-
危害缓解:MAI-DS-R1 在减少有害内容方面优于 R1-1776 和原始 R1 模型。
模型架构与目标
- 模型名称:MAI-DS-R1
- 架构:基于 DeepSeek-R1,一种基于 Transformer 的自回归语言模型,利用多头自注意力和混合专家(MoE)实现可扩展且高效的推理。
- 目标:后续训练以减少 CCP 对齐限制并增强危害保护,同时保留原始模型的强大思维链推理和通用语言理解能力。
- 预训练模型基础:DeepSeek-R1 (671B)