库名称: transformers
流水线标签: 文本生成
标签:
- 32k上下文
- 推理
- 思考
- qwen3
- 24专家
基础模型:
- Qwen/Qwen3-30B-A3B-Base
Qwen3-30B-A7.5B-24-Grand-Brainstorm
本仓库包含全精度源代码,采用"安全张量"格式,可生成GGUF、GPTQ、EXL2、AWQ、HQQ等格式。源代码也可直接使用。
这是对Qwen的"Qwen 30B-A3B"(混合专家)模型的简单"微调",将使用的专家数量从8个增加到24个(共128个专家)。
页面底部展示了使用24个专家/本模型的三个生成示例(Q4KS,CPU)。
这会降低模型速度,但使用更多"专家"处理提示,并调用30B参数中的7.5B(而非原版的3B)。根据应用场景,常规任务建议使用标准模型("30B-A3B"),而本模型适用于极其复杂/"深度"(如需要细致推理)的用例。
常规或简单任务可能更适合使用标准版(8专家)、"12厨师"(12专家)、16极限版(32k或128k上下文)或"高速"(4专家)版本。
使用24专家而非默认的8专家会使token/秒速度降低约2/3。
某些场景下,24专家版本可能性能过剩。
部分用例建议调高温度值(1+,2+)。
此外,建议尝试4、8(标准)、12和16专家版本,这些版本速度更快(token/秒),可能更符合需求。
上下文长度:32K + 8K输出(总计40k)
使用Jinja模板或CHATML模板。
重要说明:
- 由于本模型的独特性质(混合专家架构、规模、激活专家数量、专家规模),GGUF量化版本可在CPU、GPU或部分GPU卸载环境下运行,直至全精度。
- 本模型难以进行Imatrix量化:需要更大的imatrix文件/多语言/多内容(如代码/文本)支持。
- GPU速度将比纯CPU快4-8倍或更高,且相比其他"30B"模型速度惊人(token/秒速度约等于7.5B"标准"模型)。
详情、基准测试、使用方法、设置、系统角色等请参考原模型卡:
[ https://huggingface.co/Qwen/Qwen3-30B-A3B ]
其他专家数量版本:
4专家:
[ https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed ]
12专家:
[ https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks ]
16专家,32k上下文:
[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme ]
16专家,128k上下文:
[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context ]
可选系统角色:
多数情况下Qwen3会自主生成推理/思考模块,但可选择性添加:
你是一个深度思考的AI,可以通过极长的思维链深入思考问题,并通过系统性推理过程自我推演以得出正确答案。请将你的思考和内心独白包裹在<think></think>标签中,最后给出解决方案或回应。
如何在各类LLM/AI应用中"设置"系统角色,请参阅下文"Maximizing-Model-Performance-All..."文档。
重要:最高质量设置/优化操作指南/参数与采样器
若使用本模型(源代码、GGUF或其他量化版本),请查阅以下文档了解关键参数、采样器和高级采样器设置(适用于多款AI/LLM应用)。
此为"Class 1"(设置可提升性能)模型:
关于本模型的所有设置(包括其"类别"特性)、示例生成及高级设置指南(常能解决模型问题),以及提升各类用例(尤其是超出模型设计范围的场景)性能的方法,请参阅:
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
原因:
无论"模型类别"如何,该文档均详述了优化方法。
若模型为Class 3/4类别,必须根据"用例"正确设置默认参数、采样器和高级采样器。某些AI/LLM应用的默认设置不一致会导致性能不佳。对于Class 3/4模型(其运作方式与标准模型有较大差异),需额外采样器和高级采样器设置以"平滑"运行,并支持模型设计范围外的用例。
额外福利 - 这些设置适用于任何模型、任何仓库、任何量化(包括源代码/全精度):
该文档也详述了可用于任何模型、任何仓库的参数、采样器和高级采样器——所有量化版本及源代码运行——以提升任何模型的性能。
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
注:
强烈建议同时访问DavidAU的GGUF仓库(如下)获取本模型的更多使用细节;特别是"Class 3"或"Class 4"类别时,以最大化模型性能。
关于本模型的完整信息,包括:
- 模型详情及用例
- 上下文限制
- 特殊使用说明/设置
- 创建本模型所用的模型
- 访问/使用本模型的模板
- 示例生成
- 本模型的GGUF量化版本
请访问:
[ GGUFS仓库即将上线 ]
示例生成 #1:
温度1.2,重复惩罚1.06,重复惩罚范围64,topk 100,topp 0.95,minp 0.05
Q4KS [非imatrix],仅CPU(Windows 11),LMSTUDIO。
速度:8 T/S(无GPU卸载)
此为中等量化级别,imatrix Q4KS/更高量化/全精度会有更强表现。
注:部分格式在复制/粘贴时丢失。
提示:
解释如何利用夜间向太空辐射能量的冷却效应来降低全球温度。
(思考过程及输出内容略,保持原文结构)
示例生成 #2:
温度1.5,重复惩罚1.06,重复惩罚范围64,topk 100,topp 0.95,minp 0.05
Q4KS [非imatrix],仅CPU(Windows 11),LMSTUDIO。
速度:8 T/S(无GPU卸载)
科幻故事《最后传输》——讲述一艘宇宙飞船驾驶舱内,最后一名幸存船员在飞船电力耗尽前试图向地球发送最后一条信息的故事,探讨孤独、牺牲和逆境中人类联结的主题。(完整故事内容略)
示例生成 #3:
温度1.2,重复惩罚1.06,重复惩罚范围64,topk 100,topp 0.95,minp 0.05
Q4KS [非imatrix],仅CPU(Windows 11),LMSTUDIO。
速度:8 T/S(无GPU卸载)
提出20种"跳出框架"的方法,利用夜间向太空辐射能量的冷却效应来降低全球温度。(完整列表内容略)