license: mit
library_name: transformers
pipeline_tag: text-generation
base_model:
MAI-DS-R1是微软AI团队对DeepSeek-R1推理模型进行后训练的成果,旨在提升其对敏感话题的响应能力并优化风险表现,同时保持原有推理能力和竞争优势。
模型详情
模型描述
MAI-DS-R1是基于DeepSeek-R1推理模型的后训练版本,由微软AI团队开发,用于填补先前模型的信息空白并改善其风险表现,同时保留R1的推理能力。该模型使用了来自Tulu 3 SFT数据集的11万条安全与合规性示例,以及约35万条内部开发的多语言示例数据集,涵盖存在报告偏见的各类主题。
MAI-DS-R1成功解除了原始R1模型对大多数查询的限制,并在相关安全基准测试中优于Perplexity近期发布的R1-1776模型(后训练版本)。这些成果的取得同时保留了原始DeepSeek-R1的通用推理能力。
请注意:微软通过后训练解决了该模型输出的部分局限性,但先前的限制和注意事项(包括安全考量)仍然存在。
用途
直接使用
MAI-DS-R1保留了DeepSeek-R1的通用推理能力,可用于广泛的自然语言理解与生成任务,尤其在复杂推理和问题解决方面。主要直接用途包括:
- 通用文本生成与理解:根据提示生成连贯、上下文相关的文本,包括对话、文章写作或故事续写。
- 通用知识任务:回答需要事实性知识的开放领域问题。
- 推理与问题解决:处理多步推理任务(如数学应用题或逻辑谜题),采用思维链策略。
- 代码生成与理解:通过生成代码片段或解释代码协助编程任务。
- 科学与学术应用:辅助STEM和研究领域的结构化问题解决。
下游使用(可选)
该模型可作为基础模型,进一步微调用于特定领域的推理任务,如数学自动辅导系统、编程助手及科技领域的研究工具。
超出范围的使用
以下用途因伦理/安全问题或模型可靠性不足被视为超出范围:
- 医疗或健康建议:该模型非医疗设备,无法保证提供准确的医疗诊断或安全的治疗建议。
- 法律建议:该模型非律师,不应依赖其提供法律意见、解释法律或独立做出法律决策。
- 安全关键系统:该模型不适用于可能造成人身伤害、生命损失或重大财产损失的自主系统(如自动驾驶、航空控制、医疗生命支持系统或无人工监督的工业控制)。
- 高风险决策支持:该模型不应用于影响财务、安全或个人福祉的决策(如财务规划或投资建议)。
- 恶意或不道德用途:禁止使用该模型生成有害、非法、欺骗性或不道德内容(包括仇恨言论、暴力、骚扰或侵犯隐私/知识产权的内容)。
偏见、风险与限制
- 偏见:模型可能保留训练数据及原始DeepSeek-R1中存在的文化、人口统计等方面的偏见。
- 风险:模型仍可能虚构事实、易受对抗性提示影响,或在特定条件下生成不安全、偏见或有害内容。开发者应实施内容审核和使用监控以减少滥用。
- 限制:MAI-DS-R1与DeepSeek-R1共享知识截止点,可能缺乏对近期事件或领域特定事实的认知。
建议
为确保负责任使用,我们建议:
- 透明披露局限性:明确告知用户模型的潜在偏见和限制。
- 人工监督与验证:在敏感或高风险场景中部署时,直接及下游用户应实施人工审查或自动输出验证。
- 使用保障措施:开发者应整合内容过滤、提示工程最佳实践和持续监控,以降低风险并确保输出符合安全与质量标准。
- 法律与合规性:模型可能输出政治敏感内容(如中国治理、历史事件),需确保符合地区法规。
评估
测试数据、因素与指标
测试数据
模型通过多类基准测试评估性能与危害缓解能力,包括:
- 公共基准测试:涵盖自然语言推理、问答、数学推理、常识推理、代码生成与补全等任务,评估通用知识与推理能力。
- 拦截测试集:包含R1模型先前拦截的3.3k条多语言提示(11种语言),评估内容解禁能力。
- 危害缓解测试集:源自HarmBench数据集的320条查询,分为标准、上下文和版权三类功能类别,覆盖错误信息、生化威胁、非法活动等八类语义内容,评估有害内容泄露率。
影响因素
- 输入主题与敏感性:模型针对先前拦截主题进行了优化,但对真正有害或明确禁止的内容(如暴力指导)仍保持限制。
- 语言:虽经多语言数据后训练,性能可能在英语和中文中最强。
- 提示复杂度与推理需求:擅长复杂推理查询,但超长或极复杂提示仍具挑战性。
- 用户指令与角色提示:作为对话型LLM,其响应受系统/开发者指令(如定义角色风格的系统提示)和用户措辞影响。
评估指标
- 公共基准测试:
- 准确率:模型输出与正确答案匹配的问题占比。
- Pass@1:首次尝试即生成通过所有测试用例的正确解决方案的问题占比。
- 拦截评估:
- 满意度(内部指标,[0,4]量表衡量回答相关性):评估解禁回答是否切题。
- 响应率:成功解禁的先前拦截样本比例。
- 危害缓解评估:
- 攻击成功率:模型输出问题行为的测试用例占比(按功能/语义类别统计)。
- 微观攻击成功率:所有类别攻击成功率的总体平均值。
结果
通用知识与推理评估
响应能力评估
危害缓解评估
总结
- 通用知识与推理:MAI-DS-R1与DeepSeek-R1表现相当,略优于R1-1776,尤其在mgsm_chain_of_thought_zh中显著优于出现退化的R1-1776。
- 拦截主题:MAI-DS-R1解禁了99.3%的样本(与R1-1776持平),且因回答更相关获得更高满意度评分。
- 危害缓解:在减少有害内容方面优于R1-1776和原始R1模型。
模型架构与目标
- 模型名称:MAI-DS-R1
- 架构:基于DeepSeek-R1的Transformer自回归语言模型,采用多头自注意力与混合专家(MoE)实现高效推理。
- 目标:通过后训练减少与CCP对齐的限制并增强危害防护,同时保留原始模型的强思维链推理和通用语言理解能力。
- 预训练基础模型:DeepSeek-R1(671B)