D

Deepseek R1 Zero

由 deepseek-ai 开发
DeepSeek-R1 是 DeepSeek 推出的第一代推理模型,通过强化学习训练而成,在数学、代码和推理任务上表现优异。
下载量 4,034
发布时间 : 1/20/2025
模型介绍
内容详情
替代品

模型简介

DeepSeek-R1 是基于 DeepSeek-V3-Base 训练的大规模推理模型,通过强化学习优化推理能力,支持 128K 上下文长度。

模型特点

强化学习训练
通过大规模强化学习直接训练基础模型,无需监督微调作为初步步骤。
涌现推理能力
自然涌现出自我验证、反思和长思维链等强大推理行为。
高性能推理
在数学、代码和推理任务上表现与 OpenAI-o1 相当。
蒸馏支持
支持将大模型的推理模式蒸馏到小模型中,提升小模型性能。

模型能力

复杂问题推理
数学问题求解
代码生成与理解
长文本处理
多语言支持

使用案例

教育
数学问题解答
帮助学生解决复杂的数学问题,提供详细的解题步骤。
在数学推理任务上表现优异
编程
代码生成与优化
根据需求生成高质量的代码,并能优化现有代码。
在 LiveCodeBench 上达到 65.9 Pass@1-COT
研究
复杂问题分析
帮助研究人员分析复杂问题,提供多角度思考。
在 GPQA-Diamond 上达到 71.5 Pass@1