语言:
- 英语
- 法语
- 德语
- 西班牙语
- 葡萄牙语
- 意大利语
- 日语
- 韩语
- 俄语
- 中文
- 阿拉伯语
- 波斯语
- 印尼语
- 马来语
- 尼泊尔语
- 波兰语
- 罗马尼亚语
- 塞尔维亚语
- 瑞典语
- 土耳其语
- 乌克兰语
- 越南语
- 印地语
- 孟加拉语
许可证:Apache-2.0
标签:
- 所有用例
- 创意
- 创意写作
- 所有类型
- 工具调用
- 工具使用
- 问题解决
- 深度思考
- 推理
- 深度推理
- 故事
- 写作
- 小说
- 角色扮演
- bfloat16
- 角色扮演
- SillyTavern
- Backyard
- Lmstudio
- 上下文128k
- 混合专家
- 激活8位专家
- 128位专家
- NEO Imatrix
- Max Imatrix
- qwen3
基础模型:
管道标签:文本生成
特别说明:由于模型的独特结构,该模型的所有量化版本均可用于GPU和/或仅CPU/RAM运行。此外,还有多个具有特殊功能的量化版本。
Qwen3-128k-30B-A3B-NEO-MAX-Imatrix-gguf
基于Qwen最新“Qwen3-30B-A3B”混合专家模型的GGUF NEO Imatrix量化版本,上下文长度扩展至128k(131072)(原为32k/32768),根据Qwen技术文档使用“YARN”方法实现。
NEO Imatrix数据集经过内部测试和评估超过50个Imatrix数据集及大量“调整”后开发完成。
该数据集支持低至IQ1_M的量化版本,同时仍保持可用性。同样,“常规”大小的量化版本性能也显著提升。
我已包含IQ1_M、IQ3_M、Q8_0和BF16的生成示例(推理/输出)。
这些量化版本(及特定的Imatrix处理流程)专为Qwen3 30B-A3B模型设计,并利用LLamacpp的最新更新(2025年4月15日/B5127及之后版本)自定义量化结构本身。
尽管如此,“Qwen团队”应得到所有赞誉。Qwen3系列是当前最先进的模型。
由于Qwen3模型的独特结构(混合专家及激活机制仅使用30B参数中的3B),这些量化版本(所有大小)均可用于GPU和/或仅CPU运行。
这些量化版本激活了128位专家中的8位(该模型的标准设置)。
(8位)专家的激活由模型的混合专家结构自动控制,取决于提示/输入内容。
LMSTUDIO用户:
- 最近的更新允许您选择1至128位专家。这些量化版本/模型最少可运行于4位专家,建议IQ1和IQ2版本使用8位或更多专家。
IQ1_M MAX / IQ1_M MAX PLUS及更高量化版本:
IQ1_M MAX / IQ1_M MAX PLUS(7.31 GB,7.7 GB)是专为尽可能减少VRAM/RAM使用而设计的量化版本,同时仍保持可用性。建议在使用这些特定量化版本时,提供更多方向/信息的提示(参见两个生成示例),以弥补极低位量化带来的损失。
IQ1_M MAX PLUS在模型的关键点进行了额外优化(相较于IQ1_M MAX)。
IQ2版本将比IQ1_M版本强大得多。
Q2K/Q2KS版本在仅CPU/RAM运行时速度更快(每秒令牌数),但性能将低于IQ2版本。
Q3Ks版本在仅CPU/RAM运行时稍快,但性能落后于IQ3版本。
IQ3及更高量化版本将表现出极大的性能变化(相较于IQ2、IQ1和Q2/Q3版本),其中IQ4_XS/IQ4_NL是NEO Imatrix效果及该量化级别特定质量的巅峰。
Q4版本性能较高,但IQ4XS/IQ4NL版本可能接近甚至超越它们。
Q5版本性能极高。
Q6版本将达到峰值性能,但NEO Imatrix效果最小。
Q8(专用)版本性能卓越。
注意:
- IQ3版本性能优于Q3量化版本,IQ2版本同样优于Q2量化版本。
- IQ4_XS / IQ4_NL性能与Q4版本相当或更优。
- IQ3_S / IQ3_M非常强大,可用于大多数任务。
- 所有Imatrix版本的量化性能均优于非Imatrix版本。
- “Q”量化版本通常比“IQ”量化版本更快(每秒令牌数),尤其是在仅CPU/RAM运行时。
- 在某些配置中,Q2_K / Q2K_S(仅CPU/RAM运行)比IQ2/IQ3快25%至100%。
专用量化版本:
部分量化版本有多个变体(文件名后缀将显示):
- Max:经过NEO Imatrix量化并进行了小幅调整。
- Max Plus:经过NEO Imatrix量化并进行了小幅调整 + 更大的输出张量/嵌入。
- Max Plus 2:经过NEO Imatrix量化并进行了小幅调整 + 16位输出张量。
- Max Super:经过NEO Imatrix量化并进行了Q6调整 + Q6嵌入 + 16位输出张量。
- Max ULTRA:第0-7、35-36、46-47层优化至更高位 + 16位输出张量,并混合优化以在CPU/GPU上达到最高速度。
其中“Max Super”性能最强,“Max Ultra”则针对特定层进行了推理/输出增强优化。
IQ1_M(Plus)、所有IQ2和IQ3版本:
- 输出张量为Q8
- 嵌入为IQ4_XS
- 部分专家张量进行了小幅调整。
Q8 MAX PLUS:
MAX ULTRA列表 - 各量化版本详情:
- Q6 ULTRA MAX:专家层/张量0-7、46-47为16位(f16)+ 16位(f16)输出张量,并混合优化以在CPU/GPU上达到最高速度。
- Q8 ULTRA MAX:专家层/张量0-7、46-47为16位(f16)+ 16位(f16)输出张量,并混合优化以在CPU/GPU上达到最高速度。
速度 - GPU与CPU:
以下是粗略的速度图表(下方),包含量化版本、CPU/RAM的T/S、量化大小及仅GPU的T/S。
注意:混合专家模型不会因量化而遭受相同程度的性能损失,也不会因量化而在每秒令牌数上出现极端差异。这是由于它们的运行方式、激活的专家数量及其他内部结构。
CPU/RAM/配置 // GPU测试:
- Win 11,14900KF(英特尔)CPU,激活6/24核心(绿色CPU);核心速度/内存速度(DDR5)/主板速度为6 GHz(最大)。
- GPU:Geforce 4060 TI 16 GB(中低端显卡)。
仅CPU注意事项:
- 仅CPU速度将取决于内存、主板、CPU速度/架构及操作系统(Windows最慢,Linux速度提升20%)。
- 别忘了为“上下文”“内存”留出空间。
- 核心:有时在较少核心/线程上运行LLMs/AIs效果更好,每秒令牌数会更高。
- 某些较大的量化版本实际上运行更快,因为“数学更简单”(例如Q2K、Q4_0、Q5_0)。
- IQ量化版本在CPU上可能运行较慢,因为数学运算更复杂/更多,而在GPU上则相反。
- 如果至少有80 GB或更多内存,可以在CPU/RAM上运行“全精度”(16位)。
- 如果内存、CPU或主板存在瓶颈,每秒令牌数将下降(一半或更多)。
- Windows用户:建议“重启”并禁用/关闭/休眠尽可能多的应用程序。
- Mac用户:根据CPU/RAM/配置,速度可能与GPU相当或更高。
仅GPU注意事项:
- 由于模型的混合专家特性(相对于拆分“常规”模型),将模型拆分到CPU/GPU将导致速度大幅下降。
- 当前/高端GPU(显卡)速度将是这些速度的2-4倍或更高。
- 在大多数情况下,IQ量化版本在原始性能和速度上优于“Q”量化版本。
重要提示:结果为使用8位激活专家时的性能。激活专家减少时每秒令牌数将增加……激活专家增加时将下降。
Q2_K_S 29 T/s [10 GB] 83 T/S
Q2_K 27 T/s [10.5 GB] 72 T/S
IQ1_M 22 T/S [7 GB] 87 T/S
IQ2_XXS 21 T/S [8 GB] 76 t/s
IQ2_M 20 T/S [10 GB] 80 T/S
Q4_0 20 T/S [17 GB]
Q3_K_S 18 T/S [12.9 GB] 70 T/S
Q5_0 17 t/s [21 GB]
IQ3_M 15 T/S [13 GB] 75 T/S
...
Q8_0 8 t/s [30 GB]
BF16 4 t/s [60 GB]
操作说明(所有量化版本):
- 建议最小上下文为8k - 16k。
- 温度1+、2+更适合小量化版本和/或“创意”使用。
- 温度0.5至0.7最适合推理,量化版本大于IQ2时(IQ1/IQ2版本推理时稍高温度更佳)。
- 建议IQ1、IQ2量化版本的重复惩罚为1.1,以抑制“低位量化习惯”。
- 系统角色(下方示例中 - 页面底部)与所有量化版本一起使用。
- 模型使用“默认”Jinja模板(嵌入在GGUF中)和/或CHATML模板。
有关其他基准测试、操作说明、开启/关闭推理及技术说明,请参阅Qwen的仓库:
[ https://huggingface.co/Qwen/Qwen3-30B-A3B ]
推荐设置(全部) - 用于“思考”/“推理”:
温度:0.5至0.8、1.5、2、2+,重复惩罚:1.02(范围:1.02至1.12),重复惩罚范围:64,top_k:80,top_p:0.95,min_p:0.05
温度1+、2+、3+将导致更深、更丰富和“更有趣”的思考和推理,以及更好的输出。
模型行为可能因其他参数和/或采样器的激活而改变 - 尤其是“思考/推理”过程。
系统角色/系统提示 - 开启/关闭/可变推理并增强模型能力:
(模型操作的关键设置)
系统角色/系统提示/系统消息(本节称为“系统提示”)是模型的“根访问权限”,控制内部运作 - 包括指令遵循和输出生成,以及本模型中推理的控制和开启/关闭。
在本节中,我将向您展示基本、高级和组合的“代码”,以控制模型的推理、指令遵循和输出生成。
如果不设置“系统提示”,推理/思考将默认关闭,模型将像普通LLM一样运行。
如何设置:
根据您的AI“应用程序”,您可能需要将以下“代码”之一复制/粘贴到“系统提示”或“系统角色”窗口中以启用推理/思考。
在Lmstudio中,设置/激活“高级用户”或“开发者”模式以访问,复制/粘贴到系统提示框。
在SillyTavern中,转到“模板页面”(“A”),激活“系统提示”并在提示框中输入文本。
在Ollama中,参见[ https://github.com/ollama/ollama/blob/main/README.md ];并设置“系统消息”。
在Koboldcpp中,加载模型,启动它,转到设置 -> 选择“Llama 3 Chat”/“Command-R”并在“系统提示”框中输入文本。
可用的系统提示:
复制/粘贴时保留格式,包括换行符。
如果要编辑/调整这些内容,仅在记事本或LLM应用程序中直接进行。
简单:
这是用于生成和测试的通用系统提示[无推理]:
你是一个乐于助人、聪明、善良且高效的AI助手。你总是尽最大努力满足用户的需求。
此系统角色/提示将为您提供“基本思考/推理”[基本推理]:
你是一个深度思考的AI,你可以使用极长的思维链来深入思考问题,并通过系统的推理过程与自己协商,以帮助在回答之前得出正确的解决方案。你应该将你的想法和内心独白包含在<think> </think>标签中,然后提供你对问题的解决方案或回应。
多层[开启推理]:
你是一个由4个AI组成的深度思考AI - Spock、Wordsmith、Jamet