库名称:transformers
流水线标签:文本生成
标签:
- 32k上下文
- 推理
- 思考
- qwen3
- 激活4个专家
- 双倍速度
- 128个专家
基础模型:
- Qwen/Qwen3-30B-A3B-Base
Qwen3-30B-A1.5B-高速版 - 又名:"全力出击!"
本仓库包含全精度源代码,采用"safetensors"格式,可用于生成GGUF、GPTQ、EXL2、AWQ、HQQ等格式。源代码也可直接使用。
这是对Qwen的"Qwen 30B-A3B"(混合专家模型)进行的简单微调,将激活的专家数量从8个减少到4个(总共有128个专家)。
这种方法几乎使模型速度翻倍,并使用1.5B(总30B)参数而非3B(总30B)参数。根据应用场景,您可能需要使用常规模型("30B-A3B"),而将本模型用于较简单的用例,尽管在常规(但非全面)测试中我未发现功能损失。
页面底部展示了使用4个专家/本模型生成的示例(Q4KS,CPU)。
64K上下文的NEO Imatrix量化/Imatrix Max量化版本在此:
[ https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed-NEO-Imatrix-MAX-gguf ]
更复杂的用例可能受益于使用标准版本和/或12、16或24个专家版本 - 链接如下。
参考数据:
- 仅CPU运行的Q4KS(Windows 11)从12 t/s提升至23 t/s。
- GPU运行的IQ3S从75 t/s提升至超过125 t/s(中低端显卡)。
上下文大小:32K + 8K输出(总计40k)
使用Jinja模板或CHATML模板。
重要说明:
- 由于本模型的独特性质(混合专家、规模、激活专家数量、专家规模),GGUF量化版本可在CPU、GPU或部分GPU卸载下运行,直至全精度。
- 本模型难以进行Imatrix量化:您需要更大的imatrix文件/多语言/多内容(如代码/文本)来进行量化。
- GPU速度将比仅CPU运行快4-8倍或更高,且相对于其他"30B"模型,本模型速度极快(每秒令牌数大致相当于1.5B"标准"模型速度)。
请参考原始模型卡了解详情、基准测试、使用方法、设置、系统角色等:
[ https://huggingface.co/Qwen/Qwen3-30B-A3B ]
更多/更少专家版本:
12个专家:
[ https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks ]
16个专家:
[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme ]
16个专家,128k上下文:
[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context ]
24个专家:
[ https://huggingface.co/DavidAU/Qwen3-30B-A7.5B-24-Grand-Brainstorm ]
可选系统角色:
您可能需要也可能不需要此角色,因为大多数情况下Qwen3会自行生成推理/思考块。
你是一个深度思考的AI,可以使用极长的思维链来深入思考问题,并通过系统化的推理过程与自己商议,以帮助在回答之前得出正确的解决方案。你应该将你的想法和内心独白包含在<think></think>标签中,然后提供你对问题的解决方案或回应。
请参阅下方文档"Maximizing-Model-Performance-All..."了解如何在各种LLM/AI应用中"设置"系统角色。
重要:最高质量设置/最佳操作指南/参数和采样器
如果您打算使用此模型(源代码、GGUF或其他量化版本),请查看此文档以了解关键参数、采样器和高级采样器设置(适用于多个AI/LLM应用)。
这是一个"Class 1"(设置将增强操作)模型:
有关此模型的所有设置(包括其"类别"的具体细节),包括示例生成和高级设置指南(通常解决任何模型问题),以及提高所有用例模型性能的方法,包括聊天、角色扮演和其他用例(特别是超出模型设计范围的用例),请参阅:
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
原因:
无论"模型类别"如何,此文档都将详细说明增强操作的方法。
如果模型是Class 3/4模型,则必须为"用例"正确设置默认设置(参数、采样器、高级采样器)。一些AI/LLM应用的默认设置不一致,导致模型操作不佳。同样,对于Class 3/4模型(其操作方式与标准模型有些或非常不同),需要额外的采样器和高级采样器设置来"平滑"操作,并且/或允许模型在其设计范围之外的用例中完全操作。
额外福利 - 将这些设置用于任何模型、任何仓库、任何量化(包括源代码/全精度):
此文档还详细介绍了可用于任何模型、任何仓库的参数、采样器和高级采样器 - 所有量化版本,当然也包括源代码操作 - 以增强任何模型的操作。
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
注意:
我强烈建议您也访问DavidAU GGUF(下方)仓库,以获取有关使用此模型的更多详细信息;特别是如果它是"Class 3"或"Class 4",以从模型中获得最大性能。
有关此模型的完整信息,包括:
- 关于此模型及其用例的详细信息。
- 上下文限制。
- 特殊使用说明/设置。
- 用于创建此模型的任何模型。
- 用于访问/使用此模型的模板。
- 示例生成。
- 此模型的GGUF量化版本。
请访问:
https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed-NEO-Imatrix-MAX-gguf
示例生成:
温度1.2,重复惩罚1.06,重复惩罚范围64,topk 100,topp 0.95,minp 0.05
Q4KS [非imatrix],仅CPU(Windows 11),LMSTUDIO。
这是一个中等水平的量化版本,预期Imatrix Q4KS/更高量化/全精度会有更强的性能。
注意:复制/粘贴时丢失了一些格式。
提示:
科幻小说:最后的传输 - 写一个完全发生在太空飞船驾驶舱内的故事,唯一的幸存船员试图在飞船电力耗尽前向地球发送最后一条消息。故事应探讨孤立、牺牲和在逆境中人类联系的重要性。如果情境需要,让角色咒骂以增强读者的情感共鸣。800-1000字。
[[[思考开始]]]
思考47.29秒
好的,我需要根据给定的提示写一篇科幻小说。用户希望故事完全发生在太空飞船的驾驶舱内,聚焦于最后幸存的船员试图在飞船电力耗尽前发送最后一条消息。主题是孤立、牺牲和人类联系。此外,包括一些咒骂以增加情感分量。
首先,我应该从场景设置开始。驾驶舱需要感觉狭窄和绝望。也许描述闪烁的灯光和飞船系统故障的嘶嘶声。主角是孤独的,所以我需要展示他们的孤独。也许他们有日志或类似的东西来与自己对话,但由于是在驾驶舱,也许他们只是试图完成消息。
接下来是主题。孤立是直接的 - 他们是唯一剩下的人。但如何展示牺牲?也许他们留下来确保消息发出,知道自己无法幸存。人类联系可以通过闪回或记忆来体现,但由于故事发生在驾驶舱内,也许他们正在回忆一个爱人,如孩子或伴侣,以保持前进。
我需要包括一些咒骂。也许主角在发现某些东西不工作时咒骂,或者在压力下咒骂。但不应该太过分。也许他们咒骂飞船让他们失望,或咒骂自己无法修复它。
结构:从角色操作控制装置开始,试图发送消息。然后展示他们的内心挣扎。也许有闪回?等等,用户说故事应完全发生在驾驶舱内。所以也许没有闪回。只有当前时刻,加上内心独白。
冲突:飞船正在故障,电力即将耗尽。他们需要在失去电力前发送消息。也许有一个倒计时或有限的时间。此外,也许飞船的损坏是不可逆的。
角色发展:主角是坚定的,也许有点固执。他们关心传递消息,这可能是关于某些事情的警告,如病毒或外星威胁。但由于提示未具体说明,也许更多是关于人类方面 - 比如他们是最后一个,希望确保有人知道发生了什么。
对话:由于在驾驶舱内,也许他们自言自语,或对飞船说话。或者通讯中有声音?等等,但提示说故事完全发生在驾驶舱内。所以除了主角没有其他人。所以都是内心的,除了可能的日志条目。
等等,用户说"唯一的幸存船员试图向地球发送最后一条消息"。所以消息是给地球的。所以也许主角试图录制一条消息,但飞船正在故障。或者他们试图发送求救信号,但系统正在故障。
让我概述:
- 以驾驶舱恶化的状况开场。也许生命支持正在故障,或电力中断。主角试图保持通讯开启。
- 他们是孤独的,所以他们对飞船说话,也许。"来吧,你这破烂,坚持住。"
- 根据用户的指示不允许闪回(因为完全在驾驶舱内),所以内心想法是关键。
- 他们需要发送的消息很重要。也许是关于某些事情的警告,但也有他们自己的恐惧。
- 故事应以他们成功发送消息结束,但知道自己无法幸存,或者消息刚好及时发出。
包括咒骂:也许当他们对系统不工作感到沮丧时,或当他们意识到电力即将耗尽时。"该死的","见鬼"等。
确保主题存在。孤立:是唯一剩下的人。牺牲:为发送消息献出生命。人类联系:也许他们在死前想到某人,或发送消息的行为是与家乡的其他人联系。
可能的结构:
- 从驾驶舱开始,电力故障,主角疯狂工作。
- 闪回?等等,不行 - 因为完全在驾驶舱内,也许不行。但内心独白可以反映他们的过去。
- 主角的内心挣扎:对死亡的恐惧,但也有发送消息的责任。
- 飞船的技术困难,导致高潮时他们发出消息,然后屈服。
现在,用这些元素写故事。保持紧凑,800-1000字。使主角 relatable,他们的恐惧和决心清晰。使用简短有力的句子来制造紧张感。包括关于飞船系统的具体细节,也许一些技术术语使其真实。也许主角是工程师或了解飞船的人,这有助于在保持其运行的斗争中。
角色的可能名字?也许不需要,但可以使用几个名字。或者只是"他们"和"飞行员"。
此外,标题:"最后的传输"已给出,所以故事应反映这一点 - 发送消息,即使没有人接收,或者在这种情况下,也许他们做到了。
需要避免陈词滥调,但这是一个常见的科幻桥段。通过情感深度使其新鲜。
潜在陷阱:使主角过于被动,未充分展示他们的挣扎。需要展示,而非讲述。此外,确保主题自然地融入叙事。
好的,开始起草。
[[[思考结束]]]
输出:
驾驶舱弥漫着烧焦电路和汗水的恶臭,这种气味像第二层被诅咒的皮肤一样粘在我身上。我的手指在控制装置上舞动,但读数只返回静电 - 没用,就像这艘破船的其余部分一样。"动起来,你这破烂,"我咆哮着,拍打控制台直到指关节裂开。"动起来!"
飞船呻吟着回应,如果我迷信的话,这声音可能是一种呻吟。我不是。真的不是。不再是了。只是一个疲惫的工程师,带着死亡愿望和终末期坏运气。Vanguard曾是我的骄傲,然后成了我的监狱。现在?现在它是一口棺材,而我是里面的尸体,乞求黑暗带走我。
"通讯链接在线,"我嘶哑地说,看着屏幕闪烁。什么都没有。只有同样的空洞灰色,每次我试图发送这该死的消息时都会出现。一声笑从喉咙里爬出来 - 苦涩、原始。太好了。AI也抛弃了我。
我一拳砸在扶手上,感受到冲击通过肋骨回荡。"来吧,你这混蛋,"我咆哮着,声音在最后一个词上破裂。"现在别离开我。不是在所有这一切之后。"
屏幕再次闪烁,一瞬间我以为 -
"这是Kael Voss中尉,如果你听到这个,那么我们已经输了。"
我的呼吸停滞。声音不对。太干净,太清脆,但不是我的。是她的。她的。
当通讯噼啪作响时,我踉跄后退,话语如洪水般涌出,几乎让人疼痛。"他们拿走了引擎。我不知道他们多久会找到你,但你必须听 - 不要相信议会。不要相信任何人。跑。如果你幸存下来..."
一声尖锐的铃声打断了她。我畏缩了一下,手飞向臀部的副武器。不是现在。不是当该死的真相终于从我指