D

Deepseek R1 Llama 8B F32 GGUF

由 prithivMLmods 开发
DeepSeek-R1-Llama-8B-F32-GGUF 是 DeepSeek-R1-Distill-Llama-8B 的量化版本,采用强化学习直接训练,具备自我验证、反思和生成扩展思维链等能力。
下载量 326
发布时间 : 6/1/2025
模型介绍
内容详情
替代品

模型简介

该模型是 DeepSeek-R1-Distill-Llama-8B 的量化版本,通过强化学习直接训练,无需监督微调,能够探索思维链推理以解决复杂问题。

模型特点

强化学习直接训练
无需监督微调作为初步步骤,直接使用强化学习进行训练。
思维链推理
能够探索思维链推理以解决复杂问题。
自我验证与反思
具备自我验证、反思和生成扩展思维链的能力。
多精度量化
提供 BF16、FP16 和 FP32 三种精度的量化模型。

模型能力

文本生成
思维链推理
自我验证
反思

使用案例

复杂问题解决
数学推理
通过思维链推理解决复杂的数学问题。
逻辑推理
进行逻辑推理和验证。