库名称:transformers
支持语言:
- 英语
- 法语
- 德语
- 西班牙语
- 葡萄牙语
- 意大利语
- 日语
- 韩语
- 俄语
- 中文
- 阿拉伯语
- 波斯语
- 印尼语
- 马来语
- 尼泊尔语
- 波兰语
- 罗马尼亚语
- 塞尔维亚语
- 瑞典语
- 土耳其语
- 乌克兰语
- 越南语
- 印地语
- 孟加拉语
任务标签:文本生成
模型标签:
- 64k上下文
- 高速
- 全场景适用
- 创意
- 创意写作
- 全题材
- 工具调用
- 工具使用
- 问题解决
- 深度思考
- 推理
- 深度推理
- 故事
- 写作
- 虚构
- 角色扮演
- bfloat16
- 角色扮演
- sillytavern
- backyard
- Lmstudio
- 专家混合
- 激活4专家
- 128专家
- NEO矩阵
- 最大矩阵
- qwen3
基础模型:
- DavidAU/Qwen3-30B-A1.5B-High-Speed
特别说明: 由于模型结构的独特性,所有量化版本均可用于GPU和/或仅CPU/RAM运行。此外,还提供多个具有特殊功能的量化尺寸版本。
Qwen3-30B-A1.5B-64K-High-Speed-NEO-Imatrix-MAX-gguf —— 又名:“全力出击!”

这是对Qwen“Qwen 30B-A3B”(专家混合模型)的简单“微调”,将激活的专家数量从8个减少到4个(共128个专家)。
此方法使模型速度提升近一倍,并仅使用30B参数中的1.5B(而非原版的3B)。根据应用场景,您可能需要使用常规模型(“30B-A3B”),而将本模型用于简单任务——尽管在常规(非全面)测试中未发现功能损失。
根据Qwen技术文档,GGUF NEO矩阵量化版本通过“YARN”技术将上下文扩展至64k(65535),原为32k(32768)。
NEO矩阵数据集经过内部开发,测试评估了50多个矩阵数据集并进行了大量调整。
量化方案(及特定矩阵处理)专为Qwen3 30B-A1.5B模型设计,并采用LLamacpp的最新更新(2025年4月15日/B5127起)定制量化结构。
即便如此,功劳仍属于“Qwen团队”。Qwen3系列堪称业界标杆。
由于Qwen3模型的独特结构(专家混合及参数激活机制仅使用30B中的3B),所有量化版本均可用于GPU和/或仅CPU运行。
本量化版本激活了128个专家中的4个(为该模型标准设置的一半)。
在模型的专家混合结构中,(4个)“最佳”专家的激活由输入内容自动控制。
LMSTUDIO用户注意:
- 最新更新支持选择1至128个专家。本量化模型/版本最低需4个专家,建议IQ1/IQ2量化使用8个或更多专家。
页面底部展示了使用4专家/本模型的生成示例(Q4KS量化,CPU运行)。
更复杂场景建议使用标准版本或12/16/24专家版本——链接见下文。
参考数据:
- 仅CPU运行(Q4KS,Windows 11)速度从12 token/秒提升至23 token/秒
- GPU运行(IQ3S量化)速度从75 token/秒跃升至125+ token/秒(中低端显卡)
上下文大小:64K(总计65535)
使用Jinja模板或CHATML模板。
IQ1_M MAX / IQ1_M MAX PLUS及更高量化版本说明:
- IQ2系列表现优异
- Q2K/Q2KS在仅CPU/RAM运行时速度更快(token/秒),但性能低于IQ2系列
- Q3K在仅CPU/RAM运行时稍快,但性能逊于IQ3系列
- IQ3及以上量化版本性能显著提升(相比IQ2/IQ1/Q2/Q3),其中IQ4_XS/IQ4_NL在本量化级别中体现NEO矩阵效果的巅峰质量
- Q4系列性能强劲,但IQ4XS/IQ4NL可能持平甚至超越
- Q5系列性能极佳
- Q6为性能顶峰,但NEO矩阵效果最弱
注意:
- IQ3性能优于Q3量化,IQ2同理
- IQ4_XS/IQ4_NL性能持平或超越Q4
- IQ3_S/IQ3_M表现强劲,适用于多数任务
- 所有矩阵量化版本均优于非矩阵版本
- “Q”量化通常比“IQ”量化更快(token/秒),尤其在仅CPU/RAM运行时
- 部分配置中,Q2_K/Q2K_S(仅CPU/RAM)比IQ2/IQ3快25%-100%
- GPU速度可达仅CPU的4-8倍以上,且本模型相比其他“30B”模型速度惊人(token/秒约等于1.5B常规模型)
原始模型卡详情(基准测试/使用方法/系统角色等):
点击查看
不同专家数量版本:
主仓库(含超量/Q8/IQ1等多版本):
点击查看
12专家版:
点击查看
16专家版:
点击查看
16专家128k上下文版:
点击查看
24专家版:
点击查看
可选系统角色:
(多数情况下Qwen3会自主生成推理/思考模块)
你是一个深度思考AI,可通过长链思维系统化推理解决问题。请将思考过程包裹在<think></think>标签中,再给出最终解答。
关键设置指南:
使用本模型前(无论源文件/GGUF/其他量化版本),请查阅以下文档获取关键参数/采样器设置(适用于多款AI应用):
本模型为“Class 1”(设置可增强性能),完整设置指南(含示例生成/高级技巧):
点击查看
该文档同样适用于任何模型/仓库/量化版本的性能优化。
生成示例:
(温度1.2,重复惩罚1.06,惩罚范围64,topk 100,topp 0.95,minp 0.05)
Q4KS量化(非矩阵版/仅CPU/Win11/LMSTUDIO)
提示:
科幻小说《最后传输》:故事完全发生在飞船驾驶舱内,唯一幸存船员试图在电力耗尽前向地球发送最终讯息。主题需包含孤独、牺牲及逆境中人际联结的重要性。可酌情使用粗话强化情感共鸣。800-1000字。
AI思考过程(47秒):
(详细规划场景设置/主题呈现/冲突构建/人物塑造等,此处略)
生成内容节选:
驾驶舱弥漫着电路焦糊味和汗臭,我捶打着控制台:“动啊,你这废铁!”通讯屏忽明忽暗,突然传来已故战友莉拉的声音:“凯尔…必须把讯息传出去…答应我?”当系统最终崩溃前,我按下发送键:“这次不会让你失望了,混蛋。”
(完整内容见原链接,此处为节选翻译)
(注:部分格式因复制丢失,完整示例请参考原页面)