🚀 Qwen3-Zero-Coder-Reasoning-0.8B-NEO-EX-GGUF
这是一个基于Qwen 3平台的编码模型,具备完整的推理能力,运行速度极快。在中等硬件上每秒能处理超过150个token,仅使用CPU时每秒也能处理50个以上token。它是一个通用的编码模型,适用于生成代码块、构思编码思路以及快速生成代码草稿。凭借推理能力,它还能处理复杂的代码请求。
✨ 主要特性
- 高速推理:在Qwen 3平台上运行速度极快,中等硬件上超过150 t/s,仅CPU也能达到50 t/s+。
- 通用编码:适用于代码块生成、编码思路头脑风暴和快速生成草稿代码。
- 推理能力:能够处理复杂代码请求。
- 模型结构:包含42层(由两个0.6B模型合并而成),464个张量,是该规模下非常密集的模型。
- 数据集增强:GGUF文件使用NEO Imatrix数据集进行了增强,包括Q8、F16和BF16(NEO2、NEO3)。
- 多版本支持:仓库中有三种NEO GGUF版本,可利用模型的独特属性。
📚 详细文档
模型量化版本建议
通常建议使用尽可能大的量化版本,但在某些情况下,较小的量化版本(如IQ3_M、Q4s、IQ4s)可能会产生更好的结果。这部分归因于Neo Imatrix数据集(该数据集对量化版本大小的影响呈反比)。需要注意的是,最高量化版本运行良好,但更容易“迷失方向”。为解决这个问题,可以在提示中添加额外的细节和条件,使模型专注于核心问题;如果在生成过程中发现模型“陷入细节”,可以停止生成并重新生成。
不同量化版本的特点
- 低到中量化版本:由于某些用例中这些量化版本的Imatrix效应更强,因此效果最佳。模型编码能力更好,决策更优,有时生成的推理块更小(为正常大小的1/4到1/2)。较低量化版本通常能提出“跳出框框”的解决方案,或者生成不太复杂但仍然有效的解决方案。
- 高量化版本:运行良好,但可能生成更长的推理块,不过在某些情况下能提出更好的解决方案(相对于较小的量化版本)。
不同量化版本的使用建议
- IQ3_M:适用于许多用例,速度超过150 T/S。
- IQ4s/Q4s:Imatrix效果最佳,比特数平衡。
- Q8:性能强大。
- BF16和F16:全功率运行(关于BF16和F16的特殊说明见下文)。
不同版本的Q8、F16、BF16
每种都有三个版本。第一组是正常版本,第二组(NEO2)的输出张量设置为Q6(也经过Imatrix处理),第三组(NEO3)的输出张量设置为IQ4_XS(同样经过Imatrix处理)。有趣的是,在某些情况下F16比BF16效果更好,尽管原始源代码是BF16格式,转换为F16时会有轻微的舍入效应。
模型设置要求
- 模板要求:需要Jinja(嵌入式)或CHATML模板。
- 上下文要求:最大上下文为40k,建议最小上下文为8k到16k。
测试使用的设置建议
设置1
- 温度(Temp):0.3到0.7
- 重复惩罚(Rep pen):1.05到1.1
- 核采样概率(Topp):0.8,最小概率(minp):0.05
- Topk:20
- 无系统提示
设置2
- 温度(Temp):0.55
- 重复惩罚(Rep pen):1.05
- 核采样概率(Topp):0.95,最小概率(minp):0.05
- Topk:100
- 无系统提示
设置3(推荐)
- 温度(Temp):0.6
- 重复惩罚(Rep pen):1.1
- 核采样概率(Topp):0.95,最小概率(minp):0.0
- Topk:20
- 无系统提示
不同复杂度问题的量化版本选择
对于较简单的编码问题,较低的量化版本效果良好;对于复杂的多步骤问题解决,建议使用Q6或Q8。
操作建议
使用该模型时,应使用明确的语句告知模型你想要的和不想要的,以帮助模型保持专注。对于较低的量化版本(IQ2s、Q2s和较低的IQ3s),应增加指令的详细程度,并建议进行2 - 4次生成以获得最佳结果。
其他操作设置
更改活跃专家数量
请参考文档:https://huggingface.co/DavidAU/How-To-Set-and-Manage-MOE-Mix-of-Experts-Model-Activation-of-Experts
聊天/角色扮演及更流畅操作设置
在“KoboldCpp”、“oobabooga/text-generation-webui”或“Silly Tavern”中,将“Smoothing_factor”设置为1.5。
- KoboldCpp:Settings -> Samplers -> Advanced -> “Smooth_F”
- text-generation-webui:parameters -> 右下角
- Silly Tavern:称为“Smoothing”
需要注意的是,在“text-generation-webui”中使用GGUF文件时,需要使用“llama_HF”(这涉及从该模型的源版本下载一些配置文件)。模型的源版本(和配置文件)可在https://huggingface.co/collections/DavidAU/d-au-source-files-for-gguf-exl2-awq-gptq-hqq-etc-etc-66b55cb8ba25f914cbf210be找到。
其他选项
- 将重复惩罚增加到1.1到1.15(如果使用“Smoothing_factor”则无需这样做)。
- 如果运行AI模型的界面/程序支持“Quadratic Sampling”(“smoothing”),按说明进行调整即可。
最高质量设置/最佳操作指南/参数和采样器
这是一个“Class 1”模型。有关该模型的所有设置(包括其“类”的具体设置)、示例生成以及高级设置指南(通常能解决任何模型问题),包括提高所有用例(包括聊天、角色扮演等)模型性能的方法,请参考https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters。你可以在该链接中查看所有用于生成的参数,以及高级参数和采样器,以充分发挥该模型的性能。
📄 许可证
本模型使用Apache-2.0许可证。
更多信息
如需更多信息、其他Qwen/Mistral编码模型或额外设置,请参考:https://huggingface.co/DavidAU/Qwen2.5-MOE-2x-4x-6x-8x__7B__Power-CODER__19B-30B-42B-53B-gguf