Qwen3-Zero-Coder-Reasoning-0.8B-NEO-EX-GGUF开源编码模型

首页

Qwen3 Zero Coder Reasoning 0.8B NEO EX GGUF

由 DavidAU 开发

基于Qwen 3平台的高速编码模型，具备完整推理能力，适用于代码生成和复杂问题解决。

大型语言模型支持多种语言开源协议:Apache-2.0 #高速代码生成 #多量化版本适配 #复杂逻辑推理

下载量 1,155

发布时间 : 7/17/2025

模型简介

这是一个通用编码模型，专注于代码块生成、编码思路构思和快速草稿代码生成。凭借其推理能力，能够处理复杂的代码请求。

模型特点

高速推理

在中等硬件上每秒处理超过150个token，仅CPU时也能达到50+ token/s

通用编码能力

适用于代码块生成、编码思路头脑风暴和快速生成草稿代码

复杂问题解决

具备推理能力，能够处理复杂的代码请求

多量化版本支持

提供多种量化版本（Q8、F16、BF16等），适应不同需求

模型能力

代码生成

编程思路构思

代码草稿快速生成

复杂代码问题解决

使用案例

软件开发

代码块生成

快速生成特定功能的代码片段

提高开发效率

算法实现

帮助构思和实现复杂算法

提供多种解决方案思路

编程教育

学习辅助

为学习者提供代码示例和解释

加速学习过程

🚀 Qwen3-Zero-Coder-Reasoning-0.8B-NEO-EX-GGUF

这是一个基于Qwen 3平台的编码模型，具备完整的推理能力，运行速度极快。在中等硬件上每秒能处理超过150个token，仅使用CPU时每秒也能处理50个以上token。它是一个通用的编码模型，适用于生成代码块、构思编码思路以及快速生成代码草稿。凭借推理能力，它还能处理复杂的代码请求。

✨ 主要特性

高速推理：在Qwen 3平台上运行速度极快，中等硬件上超过150 t/s，仅CPU也能达到50 t/s+。
通用编码：适用于代码块生成、编码思路头脑风暴和快速生成草稿代码。
推理能力：能够处理复杂代码请求。
模型结构：包含42层（由两个0.6B模型合并而成），464个张量，是该规模下非常密集的模型。
数据集增强：GGUF文件使用NEO Imatrix数据集进行了增强，包括Q8、F16和BF16（NEO2、NEO3）。
多版本支持：仓库中有三种NEO GGUF版本，可利用模型的独特属性。

📚 详细文档

模型量化版本建议

通常建议使用尽可能大的量化版本，但在某些情况下，较小的量化版本（如IQ3_M、Q4s、IQ4s）可能会产生更好的结果。这部分归因于Neo Imatrix数据集（该数据集对量化版本大小的影响呈反比）。需要注意的是，最高量化版本运行良好，但更容易“迷失方向”。为解决这个问题，可以在提示中添加额外的细节和条件，使模型专注于核心问题；如果在生成过程中发现模型“陷入细节”，可以停止生成并重新生成。

不同量化版本的特点

低到中量化版本：由于某些用例中这些量化版本的Imatrix效应更强，因此效果最佳。模型编码能力更好，决策更优，有时生成的推理块更小（为正常大小的1/4到1/2）。较低量化版本通常能提出“跳出框框”的解决方案，或者生成不太复杂但仍然有效的解决方案。
高量化版本：运行良好，但可能生成更长的推理块，不过在某些情况下能提出更好的解决方案（相对于较小的量化版本）。

不同量化版本的使用建议

IQ3_M：适用于许多用例，速度超过150 T/S。
IQ4s/Q4s：Imatrix效果最佳，比特数平衡。
Q8：性能强大。
BF16和F16：全功率运行（关于BF16和F16的特殊说明见下文）。

不同版本的Q8、F16、BF16

每种都有三个版本。第一组是正常版本，第二组（NEO2）的输出张量设置为Q6（也经过Imatrix处理），第三组（NEO3）的输出张量设置为IQ4_XS（同样经过Imatrix处理）。有趣的是，在某些情况下F16比BF16效果更好，尽管原始源代码是BF16格式，转换为F16时会有轻微的舍入效应。

模型设置要求

模板要求：需要Jinja（嵌入式）或CHATML模板。
上下文要求：最大上下文为40k，建议最小上下文为8k到16k。

测试使用的设置建议

设置1

温度（Temp）：0.3到0.7
重复惩罚（Rep pen）：1.05到1.1
核采样概率（Topp）：0.8，最小概率（minp）：0.05
Topk：20
无系统提示

设置2

温度（Temp）：0.55
重复惩罚（Rep pen）：1.05
核采样概率（Topp）：0.95，最小概率（minp）：0.05
Topk：100
无系统提示

设置3（推荐）

温度（Temp）：0.6
重复惩罚（Rep pen）：1.1
核采样概率（Topp）：0.95，最小概率（minp）：0.0
Topk：20
无系统提示

不同复杂度问题的量化版本选择

对于较简单的编码问题，较低的量化版本效果良好；对于复杂的多步骤问题解决，建议使用Q6或Q8。

操作建议

使用该模型时，应使用明确的语句告知模型你想要的和不想要的，以帮助模型保持专注。对于较低的量化版本（IQ2s、Q2s和较低的IQ3s），应增加指令的详细程度，并建议进行2 - 4次生成以获得最佳结果。

其他操作设置

更改活跃专家数量

请参考文档：https://huggingface.co/DavidAU/How-To-Set-and-Manage-MOE-Mix-of-Experts-Model-Activation-of-Experts

聊天/角色扮演及更流畅操作设置

在“KoboldCpp”、“oobabooga/text-generation-webui”或“Silly Tavern”中，将“Smoothing_factor”设置为1.5。

KoboldCpp：Settings -> Samplers -> Advanced -> “Smooth_F”
text-generation-webui：parameters -> 右下角
Silly Tavern：称为“Smoothing”

需要注意的是，在“text-generation-webui”中使用GGUF文件时，需要使用“llama_HF”（这涉及从该模型的源版本下载一些配置文件）。模型的源版本（和配置文件）可在https://huggingface.co/collections/DavidAU/d-au-source-files-for-gguf-exl2-awq-gptq-hqq-etc-etc-66b55cb8ba25f914cbf210be找到。

其他选项

将重复惩罚增加到1.1到1.15（如果使用“Smoothing_factor”则无需这样做）。
如果运行AI模型的界面/程序支持“Quadratic Sampling”（“smoothing”），按说明进行调整即可。

最高质量设置/最佳操作指南/参数和采样器

这是一个“Class 1”模型。有关该模型的所有设置（包括其“类”的具体设置）、示例生成以及高级设置指南（通常能解决任何模型问题），包括提高所有用例（包括聊天、角色扮演等）模型性能的方法，请参考https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters。你可以在该链接中查看所有用于生成的参数，以及高级参数和采样器，以充分发挥该模型的性能。

📄 许可证

本模型使用Apache-2.0许可证。