D

Deepseek R1

由 deepseek-ai 开发
DeepSeek-R1是深度求索推出的第一代推理模型,通过大规模强化学习训练,在数学、代码和推理任务上表现优异。
下载量 1.7M
发布时间 : 1/20/2025
模型介绍
内容详情
替代品

模型简介

DeepSeek-R1是一个基于MoE架构的大规模语言模型,通过两阶段强化学习和监督微调训练而成,专注于提升复杂推理能力。

模型特点

纯强化学习训练
DeepSeek-R1-Zero版本完全通过强化学习训练,无需监督微调,展现了自然涌现的推理能力
两阶段训练流程
包含两个RL阶段用于发现推理模式和对齐人类偏好,以及两个SFT阶段作为能力种子
强大推理能力
在数学、代码和复杂推理任务上表现优异,与OpenAI-o1相当
知识蒸馏支持
支持将大模型的推理能力蒸馏到小模型,提升小模型性能

模型能力

复杂数学问题求解
代码生成与理解
长文本推理
多步逻辑推理
自我验证与反思
思维链生成

使用案例

教育
数学问题解答
解决复杂数学问题,包括证明题和计算题
在数学基准测试中表现优异
编程
代码生成
根据问题描述生成功能代码
在LiveCodeBench上达到65.9%的Pass@1-COT
研究
科学推理
处理复杂科学问题和推理任务
在GPQA-Diamond测试中达到71.5%准确率