Gemma-3小型思维模型开源 - 适配消费级显卡，多任务通用推理免费部署

首页

Gemma 3 12B FornaxV.2 QAT CoT Q4 0 GGUF

由 ConicCat 开发

这是一个实验性的小型思维模型，旨在8GiB消费级显卡上运行，具备通用推理能力。通过监督微调（SFT）和高质量推理轨迹训练，模型能够将推理能力泛化至多种任务。

大型语言模型 #消费级显卡推理 #通用思维链 #低内存优化

下载量 98

发布时间 : 5/6/2025

模型简介

Gemma Fornax是一个基于Gemma 3的12B参数模型，专注于通用推理能力，适用于编码、数学及其他任务。通过QAT检查点训练，模型在Q4_0量化下使用时不会出现质量下降。

模型特点

通用推理能力

通过广泛多样、高质量推理轨迹的监督微调（SFT），模型能够将推理能力泛化至大量任务，而不仅限于编程和数学。

低资源需求

模型设计为在8GiB消费级显卡上运行，Q4_0量化下仅需约6GiB内存。

思维模式切换

类似Qwen 3系列模型，Gemma Fornax可启用或禁用思维模式，通过系统提示中的`/think`或`/no_think`指令控制。

QAT优化

基于QAT检查点的训练使得模型在Q4_0量化下使用时不会出现质量下降。

模型能力

文本生成

通用推理

数学问题解决

编程辅助

使用案例

教育与学习

数学问题解答

模型可用于解决复杂的数学问题，并提供详细的推理过程。

通过思维模式生成详细的解题步骤。

编程开发

代码生成与优化

模型可用于生成代码片段或优化现有代码。

生成高效且可运行的代码。

创意写作

故事生成

模型可用于生成创意故事或角色设定。

生成连贯且富有创意的文本内容。

🚀 Gemma 3 12B V2 Fornax Q4_0 GGUF

本模型是一次大胆尝试，旨在打造一款强大的小型思维模型。它能够适配 8GB 显存的消费级显卡，同时具备通用推理能力。当前多数开源思维模型，尤其是小型模型，由于过度聚焦于仅适用于编码和数学领域的 GRPO zero for CoT，导致其推理能力难以泛化到编码和数学之外的任务。

本模型并未采用 GRPO，而是将 Deepseek R1 中大量高质量、多样化的推理轨迹进行监督微调（SFT），应用于 Gemma 3 模型。这一做法借鉴了 LiMO 论文在数学/编码思维链（CoT）方面的思路，旨在使模型能够将推理能力有效泛化到众多任务中。此外，还纳入了 V3 O3/24 非思维数据的子集，以提升模型的创造力，并保留其非思维能力。

基于量化感知训练（QAT）检查点进行训练，使得该模型在 Q4_0 量化下使用时不会降低质量，仅需约 6GB 内存。

🚀 快速开始

思维模式

与 Qwen 3 模型系列类似，Gemma Fornax 支持开启或关闭思维模式：

开启思维模式：在系统提示中添加 /think，并预填充 <think>\n。
关闭思维模式：在系统提示中添加 /no_think。

设置

建议使用为 Sillytavern 提供的采样器和模板 JSON 配置文件。由于格式问题，默认配置与 Gemma 3 不太兼容。

✨ 主要特性

小型高性能：能够适配 8GB 显存的消费级显卡，同时具备强大的推理能力。
推理泛化：通过独特的训练方式，将推理能力有效泛化到众多任务中。
低内存需求：基于 QAT 检查点训练，在 Q4_0 量化下使用仅需约 6GB 内存。

📚 详细文档

基础信息

属性	详情
基础模型	ConicCat/Gemma-3-12B-FornaxV.2-QAT-CoT
许可证	gemma
标签	gemma3、gemma、google
任务类型	图像文本到文本
库名称	transformers
训练数据集	GeneralReasoning/GeneralThought-430K、Undi95/R1-RP-ShareGPT3、PJMixers-Dev/Gryphe-Aesir-RPG-Charcards-Opus-Mixed-split-v3-0324