T

Thinkygemma 4b

由 xsanskarx 开发
基于Google Gemma-3-4b-pt微调的伪推理专家模型,专为结构化推理/伪诱导推理设计
下载量 19
发布时间 : 3/14/2025
模型介绍
内容详情
替代品

模型简介

该模型是Google Gemma-3-4b-it的微调版本,旨在伪装成优秀的推理者,专注于结构化推理和伪诱导推理任务。

模型特点

结构化推理能力
专为结构化推理和伪诱导推理设计,能够生成逻辑连贯的推理过程。
高效微调
使用LoRA微调技术(r = 128, alpha = 256),在单块NVIDIA H100上仅需9小时完成训练。
优质训练数据
基于2.5万条经过验证的思维链(CoT)轨迹进行训练,数据来自DeepSeek R1和Qwen QWQ。

模型能力

文本生成
结构化推理
伪诱导推理

使用案例

教育
逻辑推理教学
用于生成逻辑推理示例,帮助学生理解复杂问题的解决过程。
生成连贯的推理链条,展示问题解决的逐步过程。
研究
推理能力研究
用于研究AI模型的推理能力和伪推理行为。
提供可分析的推理轨迹,帮助理解模型推理机制。