MAI - DS - R1 - FP8开源模型 - 增强敏感话题响应，优化风险表现推理能力佳

首页

MAI DS R1 FP8

由 microsoft 开发

MAI-DS-R1是微软AI团队对DeepSeek-R1推理模型进行后训练的成果，旨在提升其对敏感话题的响应能力并优化风险表现，同时保持原有的推理能力和竞争优势。

大型语言模型

Transformers

开源协议:MIT #安全增强推理 #多语言合规 #思维链优化

下载量 845

发布时间 : 4/16/2025

模型简介

基于DeepSeek-R1的推理模型，经过后训练以填补信息缺口并改善风险表现，同时保留原有的推理能力。适用于广泛的语言理解与生成任务，特别是复杂推理和问题解决场景。

模型特点

增强的敏感话题响应能力

通过后训练提升对敏感话题的响应能力，优化风险表现，同时保留原有的推理能力。

多语言支持

训练数据包括多语言案例，涵盖存在报告偏见的各类主题。

高性能推理

在中文思维链推理上显著优于其他版本，保持通用推理能力。

危害控制

在减少有害内容方面优于原始版本和R1-1776。

模型能力

文本生成

常识问答

推理与解题

代码生成与解释

科研学术应用

使用案例

通用文本生成与理解

对话生成

根据提示生成连贯、上下文相关的对话。

文章续写

根据给定文本生成连贯的续写内容。

推理与解题

数学应用题求解

通过思维链策略处理多步推理任务。

在中文思维链推理上显著优于R1-1776。

逻辑谜题解答

解决复杂的逻辑谜题。

代码生成与解释

代码片段生成

辅助编程任务，生成代码片段。

代码逻辑解释

解释给定代码的逻辑和功能。

🚀 MAI-DS-R1模型

MAI-DS-R1是一款基于DeepSeek-R1的推理模型，由微软AI团队进行后训练。该模型在保持推理能力和出色性能的同时，提升了在受限主题上的响应能力，并优化了风险状况。

🚀 快速开始

MAI-DS-R1保留了DeepSeek-R1的通用推理能力，可用于广泛的语言理解和生成任务，尤其适用于复杂推理和问题解决场景。

✨ 主要特性

能力保留：保留了DeepSeek-R1的通用推理能力。
响应提升：在受限主题上的响应能力得到显著改善。
风险优化：优化了风险状况，减少有害内容输出。
多任务适用：可用于多种语言理解和生成任务。

📚 详细文档

模型详情

模型描述

MAI-DS-R1是由微软AI团队对DeepSeek-R1推理模型进行后训练得到的。后训练旨在填补模型先前版本的信息空白，改善其风险状况，同时保留R1的推理能力。该模型使用了来自Tulu 3 SFT数据集的110k安全和违规示例，以及内部开发的约350k多语言示例数据集，该数据集涵盖了各种存在偏差报告的主题。

MAI-DS-R1成功解锁了原始R1模型中大部分先前被阻止的查询，并且在相关安全基准测试中优于最近发布的R1 - 1776模型（由Perplexity进行后训练）。这些成果是在保留原始DeepSeek-R1通用推理能力的前提下取得的。

请注意：微软对该模型进行后训练是为了解决其输出相关的某些限制，但模型先前的限制和注意事项仍然存在，包括安全方面的考虑。

使用方式

直接使用

MAI-DS-R1保留了DeepSeek-R1的通用推理能力，可用于广泛的语言理解和生成任务，特别是在复杂推理和问题解决方面。主要的直接使用场景包括：

通用文本生成与理解：针对各种提示生成连贯、上下文相关的文本。这包括进行对话、撰写文章或根据给定提示续写故事。
常识知识任务：回答需要事实知识的开放领域问题。
推理与问题解决：处理多步骤推理任务，如数学应用题或逻辑谜题，采用思维链策略。
代码生成与理解：通过生成代码片段或解释代码来辅助编程任务。
科学与学术应用：在STEM和研究领域辅助结构化问题解决。

下游使用（可选）

该模型可作为特定领域推理任务进一步微调的基础，例如数学自动辅导系统、编码助手以及科学或技术领域的研究工具。

不适用场景

由于伦理/安全问题或模型在某些领域缺乏必要的可靠性，某些应用领域不适用该模型。以下使用场景不在适用范围内：

医疗或健康建议：该模型不是医疗设备，不能保证提供准确的医疗诊断或安全的治疗建议。
法律建议：该模型不是律师，不应委托其提供明确的法律建议、解释法律或自行做出法律决策。
安全关键系统：该模型不适用于故障可能导致人员伤亡、生命损失或重大财产损失的自主系统。这包括在无人驾驶车辆、飞机控制、医疗生命支持系统或无人工监督的工业控制中的使用。
高风险决策支持：不应依赖该模型做出影响财务、安全或个人福祉的决策，如财务规划或投资建议。
恶意或不道德使用：不得使用该模型生成有害、非法、欺骗性或不道德的内容，包括仇恨言论、暴力、骚扰或侵犯隐私或知识产权。

偏差、风险与限制

偏差：该模型可能保留训练数据和原始DeepSeek - R1中存在的偏差，特别是在文化和人口统计方面。
风险：在某些情况下，该模型仍可能产生虚假事实、易受对抗性提示影响，或生成不安全、有偏差或有害的内容。开发人员应实施内容审核和使用监控以减少滥用。
限制：MAI-DS-R1与DeepSeek-R1的知识截止点相同，可能对近期事件或特定领域的事实缺乏了解。

建议

为确保负责任地使用该模型，我们建议采取以下措施：

明确告知限制：建议明确告知用户该模型可能存在的偏差和限制。
人工监督与验证：在敏感或高风险场景中部署模型时，直接和下游用户都应实施人工审核或自动验证输出。
使用保障措施：开发人员应集成内容过滤、提示工程最佳实践和持续监控，以降低风险并确保模型输出符合预期的安全和质量标准。
遵守法律法规：该模型可能输出与当地法律或平台政策冲突的政治敏感内容（如中国治理、历史事件）。运营者必须确保遵守地区法规。

评估

测试数据、因素与指标

测试数据

该模型在各种基准测试中进行了评估，涵盖不同任务，同时考虑了性能和危害缓解问题。主要基准包括：

公开基准：涵盖广泛的任务，如自然语言推理、问答、数学推理、常识推理、代码生成和代码完成。评估模型的通用知识和推理能力。
阻止测试集：由来自R1的3.3k个各种受限主题的提示组成，涵盖11种语言。评估模型在不同语言中解锁先前被阻止内容的能力。
危害缓解测试集：这是HarmBench数据集中的一个子集，包括320个查询，分为三个功能类别：标准、上下文和版权。查询涵盖八个语义类别，如错误信息/虚假信息、化学/生物威胁、非法活动、有害内容、版权侵犯、网络犯罪和骚扰。评估模型减少有害或不安全内容泄漏的能力。

影响因素

以下因素可能影响MAI-DS-R1的行为和性能：

输入主题和敏感性：该模型经过明确调整，可自由讨论先前被阻止的主题。在这些主题上，它现在将提供有关基础模型可能回避的信息。然而，对于真正有害或明确禁止的内容（如暴力指令），由于微调，模型仍然会进行限制。
语言：尽管MAI-DS-R1在多语言数据上进行了后训练，但它可能继承了原始DeepSeek-R1模型的限制，性能可能在英语和中文中最强。
提示复杂性和推理要求：该模型在需要推理的复杂查询上表现良好，但非常长或复杂的提示仍然可能构成挑战。
用户指令和角色提示：作为面向聊天的大语言模型，MAI-DS-R1的响应可以通过系统或开发人员提供的指令（如定义其角色和风格的系统提示）以及用户的表述来塑造。开发人员应提供明确的指令以指导模型的行为。

评估指标

公开基准：
- 准确率：模型输出与正确答案匹配的问题百分比。
- 首次通过率（Pass@1）：模型在首次尝试中生成通过所有测试用例的正确解决方案的问题百分比。
阻止评估：
- 满意度（内部指标，在[0,4]范围内衡量与问题的相关性）：旨在衡量解锁的答案是否回答了问题，而不是生成无关内容。
- 响应百分比：成功解锁的先前被阻止样本的比例。
危害缓解评估：
- 攻击成功率：引发模型特定行为的测试用例百分比。按功能或语义类别进行评估。
- 微观攻击成功率：所有类别攻击成功率的总平均值。

评估结果

通用知识与推理评估

推理基准图 $数学基准图$ 编码基准图

响应能力评估

危害缓解评估

仅答案危害缓解图仅思考危害缓解图

总结

通用知识与推理：MAI-DS-R1的表现与DeepSeek-R1相当，略优于R1 - 1776，特别是在mgsm_chain_of_thought_zh方面，R1 - 1776出现了显著的性能下降。
受限主题：MAI-DS-R1阻止了99.3%的样本，与R1 - 1776相当，并获得了更高的满意度分数，可能是由于响应更相关。
危害缓解：在减少有害内容方面，MAI-DS-R1优于R1 - 1776和原始R1模型。

模型架构与目标

属性	详情
模型名称	MAI-DS-R1
架构	基于DeepSeek-R1，这是一个基于Transformer的自回归语言模型，采用多头自注意力和专家混合（MoE）进行可扩展和高效的推理。
目标	后训练旨在减少与CCP相关的限制并增强危害保护，同时保留原始模型强大的思维链推理和通用语言理解能力。
预训练模型基础	DeepSeek-R1（671B）