Qwen3-30B-A6B-16-Extreme-128k-context开源模型 - 免费部署助力复杂推理场景

首页

Qwen3 30B A6B 16 Extreme 128k Context

由 DavidAU 开发

基于千问3-30B-A3B的混合专家模型微调版本，激活专家数提升至16，上下文窗口扩展至128k，适合复杂推理场景

大型语言模型

Transformers

#16专家深度推理 #128k超长上下文 #混合专家架构

下载量 72

发布时间 : 5/4/2025

模型简介

这是一个针对深度推理优化的混合专家模型，通过增加激活专家数(16个)和扩展上下文窗口(128k)来增强复杂任务处理能力，但会降低生成速度。

模型特点

16专家模式

激活专家数从标准版的8个提升至16个(总专家数128)，可调用更多专业知识处理复杂提示

128k上下文

最大上下文窗口从32k扩展至128k，适合处理长文档和复杂推理链

灵活量化支持

支持GGUF、GPTQ、EXL2、AWQ、HQQ等多种量化格式，可运行于CPU/GPU混合模式

深度推理优化

通过思维链标签(<think></think>)实现系统性自我推演，适合需要深度分析的任务

模型能力

长文本生成

复杂推理

多轮对话

思维链分析

多语言处理

使用案例

科技分析

气候工程方案评估

分析利用太空辐射冷却效应降低全球温度的可行性

生成包含物理原理、实施步骤和风险评估的详细报告

创意写作

科幻微小说创作

生成具有情感深度和哲学思考的短篇科幻故事

800字完整小说《最后通讯》，探讨孤独与人类联结主题

浪漫场景描写

创作细腻的人物互动场景

1000字对话体场景《聚光灯下的邂逅》，展现复杂人物关系

🚀 Qwen3-30B-A6B-16-Extreme-128k-context

本项目包含全精度源代码，以 “safe tensors” 格式存储，可用于生成 GGUF、GPTQ、EXL2、AWQ、HQQ 等其他格式，也可直接使用该源代码。

🚀 快速开始

本仓库是对 Qwen 的 “Qwen 30B - A3B”（MOE）模型进行的简单 “微调”。根据 Qwen 仓库中的技术说明和方法，将使用的专家数量从 8 个增加到 16 个（总共 128 个专家），并将最大上下文长度从 32k 提升到 128k。

在本页面底部展示了使用 16 个专家/此模型进行的三次示例生成（Q4KS，CPU）。

虽然使用更多 “专家” 会降低模型速度，但它能处理更复杂的提示，并且使用 30B 中的 6B 参数，而非 30B 中的 3B 参数。根据具体应用场景，你可能会选择使用常规模型（“30B - A3B”），而将此模型用于更复杂、更 “深入”（即更细微）的用例。

常规或较简单的用例使用普通（8 个专家）、“12 个厨师”（12 个专家）或 “高速”（4 个专家）版本可能更合适。

将默认的 8 个专家增加到 16 个，会使每秒生成的令牌速度减慢约一半。

上下文长度：128k

使用 Jinja 模板或 CHATML 模板。

✨ 主要特性

多格式支持：本仓库包含全精度源代码，以 “safe tensors” 格式存储，可用于生成 GGUF、GPTQ、EXL2、AWQ、HQQ 等其他格式，也可直接使用该源代码。
专家数量调整：将使用的专家数量从 8 个增加到 16 个（总共 128 个专家），能处理更复杂的提示。
上下文长度提升：将最大上下文长度从 32k 提升到 128k，可处理更长的输入。
不同版本选择：提供普通（8 个专家）、“12 个厨师”（12 个专家）、“高速”（4 个专家）等不同版本，以满足不同应用场景需求。

📚 详细文档

模型相关版本

属性	详情
4 个专家版本	https://huggingface.co/DavidAU/Qwen3 - 30B - A1.5B - High - Speed
12 个专家版本	https://huggingface.co/DavidAU/Qwen3 - 30B - A4.5B - 12 - Cooks
16 个专家，32k 上下文版本	https://huggingface.co/DavidAU/Qwen3 - 30B - A6B - 16 - Extreme
24 个专家版本	https://huggingface.co/DavidAU/Qwen3 - 30B - A7.5B - 24 - Grand - Brainstorm

系统角色设置

你可能需要设置系统角色，不过大多数情况下 Qwen3 会自行生成推理/思考模块。

你是一个善于深度思考的 AI，在回答问题之前，你可以通过系统的推理过程，运用极长的思维链深入思考问题，并进行自我权衡，以得出正确的解决方案。你应将思考和内心独白置于 <think> </think> 标签内，然后给出问题的解决方案或回应。

有关如何在各种大语言模型/AI 应用中 “设置” 系统角色，请参阅下面的 “Maximizing - Model - Performance - All...” 文档。

高质量设置/最佳操作指南/参数和采样器

如果你打算使用此模型（源代码、GGUF 或其他量化版本），请查看此文档，了解关键参数、采样器和高级采样器设置（适用于多个 AI/大语言模型应用）。

这是一个 “1 类”（设置将增强操作）模型：

有关此模型使用的所有设置（包括其 “类别” 的具体设置），包括示例生成以及高级设置指南（该指南通常能解决任何模型问题），包括提高所有用例以及聊天、角色扮演和其他用例（尤其是超出模型设计的用例）的模型性能的方法，请参阅： https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters

原因：无论 “模型类别” 如何，此文档都将详细介绍增强操作的方法。

如果模型是 3/4 类模型，则必须为 “用例” 正确设置默认设置（参数、采样器、高级采样器）。一些 AI/大语言模型应用没有一致的默认设置，这会导致模型性能不佳。同样，对于 3/4 类模型（其操作方式与标准模型有一定或很大差异），需要额外的采样器和高级采样器设置来 “平滑” 操作，和/或允许模型在非设计用例下完全运行。

此文档还详细介绍了可用于任何模型、任何仓库的参数、采样器和高级采样器，适用于所有量化版本，当然也包括源代码操作，以增强任何模型的操作。

模型详细信息

有关此模型的完整信息，包括：

此模型的详细信息及其用例。
上下文限制。
特殊使用说明/设置。
用于创建此模型的任何模型。
用于访问/使用此模型的模板。
示例生成。
此模型的 GGUF 量化版本。

请访问：[GGUFS 仓库即将推出]

💻 使用示例

示例生成 #1

参数设置

温度（Temp）：1.2
重复惩罚（rep pen）：1.06
重复惩罚范围（rep pen range）：64
前 k 个（topk）：100
前 p 个（topp）：.95
最小概率（minp）：.05

环境信息

量化类型：Q4KS [非 imatrix]
运行设备：仅 CPU（Windows 11）
运行工具：LMSTUDIO

速度

速度：11 T/S（无 GPU 卸载）
GPU 速度将是 4 倍或更高。

这是一个中级量化，预计 Imatrix Q4KS/更高量化/全精度会有更强的性能。

提示

解释如何利用夜间辐射能向太空散热来降低全球气温。

输出

为了利用夜间辐射能向太空散热来降低全球气温，我们需要综合考虑自然过程和人类干预措施，以增强这一机制。以下是几种可行的方法：

增强地表发射率

原理：地球表面在夜间会发射热辐射，这是地球能量平衡的一部分。具有高发射率（即能够有效发射热辐射）的材料可以更高效地释放热量。
应用：在城市地区使用高发射率材料，如 “冷屋顶” 或 “冷路面”，可以增加夜间的辐射冷却速率。这些材料在白天反射较少的阳光，而在夜间发射更多的热量，从而降低局部温度。
全球影响：如果在大规模范围内实施（例如在城市或农业地区），这可能有助于局部降温，对全球气温产生累积影响，特别是在城市化程度较高的地区。

减少温室气体浓度

原理：二氧化碳和甲烷等温室气体通过吸收和重新发射热辐射，将热量困在大气中。这减少了白天和夜间向太空散发的热量。
应用：通过采用可再生能源、碳捕获或植树造林等政策来减少温室气体排放，可以降低大气中的浓度。这将使更多的热量在所有时段（包括夜间）辐射到太空。
全球影响：虽然这是一种标准的气候缓解方法，但它直接解决了问题的根源，减少了 “温室效应”，这对于全球温度调节至关重要。

管理云量

原理：云层会阻碍长波辐射（OLR）向太空散发。在夜间，较低的云量可以使更多的热量逃逸到太空。
应用：可以使用云播种或控制云形成等地球工程技术来减少夜间的云密度。然而，这是一种推测性的方法，存在生态风险。
挑战：操纵云量是复杂且尚未完全理解的，需要仔细考虑可能产生的意外后果。

太空技术

原理：虽然仍处于理论阶段，但可以设计反射卫星或 “辐射冷却” 结构等技术，将热辐射重新导向太空。
应用：假设部署具有高发射率涂层或反射镜的卫星，将热能反射远离地球，可能会增强全球辐射冷却。然而，这目前还不可行，需要大量的技术和经济投资。
挑战：实际可行性受到当前技术、成本和潜在环境影响的限制。

城市和景观设计

原理：城市地区通常由于使用沥青和混凝土等低发射率材料而保留热量。用发射率高的材料取代这些材料可以增强夜间冷却效果。
应用：设计具有发射性表面、绿地或反射元素的城市可以创造更凉爽的微气候。这种方法已经在城市规划中得到测试（例如洛杉矶的冷屋顶）。
全球影响：虽然是局部性的，但这些做法可以减少热岛效应，热岛效应是导致局部温度升高的重要因素。

夜间蒸发冷却

原理：水的蒸发可以通过潜热传递实现冷却。在夜间，如果湿度较高，这一过程可能更有效。
应用：在干旱地区增加水的供应，或使用基于水的冷却系统（如喷雾装置）可以增强夜间冷却效果。然而，这需要资源管理，并且可能无法在全球范围内实施。

促进农业中的辐射冷却

原理：使用发射性材料或水进行冷却的农业实践可以降低农业区域的温度。这可能通过减少人类活动产生的热量，对全球气温产生间接影响。
应用：可以采用 “冷却毯” 或反射灌溉系统等技术。然而，这更多是一种小众应用，而非全球战略。

关键考虑因素

局限性：夜间冷却虽然是一种自然过程，但与太阳能输入和温室气体浓度等主要驱动因素相比，其对全球气温的影响相对较小。增强这一过程需要采取互补的策略。
整体方法：这些方法应作为更广泛的气候缓解努力的一部分，例如减少温室气体排放、推广可再生能源和改善土地利用实践。

结论

通过发射性材料和大气管理来利用夜间冷却可以有助于降低气温，但与全球气候战略相结合时最为有效。虽然一些方法（如高发射率材料）是可行的，但其他方法仍处于理论阶段。主要焦点应始终放在减少温室气体排放上，这直接解决了全球变暖的根源问题。

示例生成 #2

参数设置

温度（Temp）：0.6
重复惩罚（rep pen）：1.06
重复惩罚范围（rep pen range）：64
前 k 个（topk）：100
前 p 个（topp）：.95
最小概率（minp）：.05

环境信息

量化类型：Q4KS [非 imatrix]
运行设备：仅 CPU（Windows 11）
运行工具：LMSTUDIO

速度

速度：12 T/S（无 GPU 卸载）
GPU 速度将是 4 倍或更高。

这是一个中级量化，预计 Imatrix Q4KS/更高量化/全精度会有更强的性能。

提示

科幻小说：《最后一次传输》 - 写一个完全发生在宇宙飞船驾驶舱内的故事，唯一幸存的船员在飞船电力耗尽前试图向地球发送最后一条消息。故事应探讨孤立、牺牲以及在逆境中人类联系的重要性等主题。如果情况需要，让角色咒骂以增强读者与他们的情感联系。字数在 800 - 1000 字之间。

输出

驾驶舱宛如一座钢铁与闪烁灯光构成的坟墓。空气中弥漫着烧焦电路和陈旧咖啡的味道。奥德赛号飞船的船长珍·科瓦尔站在控制面板前，戴着手套的双手颤抖着，凝视着屏幕上闪烁的 “发送” 二字。几个小时过去了，信号却始终未能发出。飞船的电力即将耗尽，这是她向地球发送最后消息的最后机会。

她低声咒骂着，干燥的空气让她的声音变得沙哑。“该死！该死！” 她再次按下发送按钮，仿佛用力按下就能克服故障的系统。屏幕没有任何反应，只显示着红色的警告：“电量严重下降”。

珍向后靠在椅子上，椅子在她的重压下发出嘎吱声。她望着墙上的全息地图，地球在浩瀚的黑暗中只是一个蓝色的小点。它是如此遥远，如此渺小。她想起了船员们，那些曾经与她并肩作战的人。如今他们都已离去。一场爆炸席卷了飞船，夺走了所有人的生命。她当时在维修舱，不知为何幸免于难，但其他人却没能逃过一劫。

她闭上眼睛，轻声说道：“对不起，我真的很抱歉。”

驾驶舱里一片寂静，只有故障系统发出的嗡嗡声。灯光闪烁不定，温度也在不断下降。她把夹克裹得更紧了，但这并没有什么用。寒冷已经侵入了她的内心，自爆炸发生、船员丧生、她意识到自己孤身一人的那一刻起，寒冷就一直伴随着她。

她打开通讯日志，那是她在爆炸前创建的一个文件，是给地球的最后一条消息。事故发生后的那些日子里，当她还有电力和希望时，她写下了这条消息。现在，她必须把它发送出去。但系统正在崩溃，电力也即将耗尽。如果现在不发送，这条消息将永远消失。

她再次打开消息，上面写道：“我是奥德赛号飞船的船长珍·科瓦尔，我们迷失了方向。船员们都已牺牲，我是唯一的幸存者。但我仍要发送这条消息。如果有人能听到，请记住，我们曾努力过，我们从未放弃，我们战斗过，我们不会被遗忘。”

她又读了一遍，喉咙哽咽。当初她写下这条消息时，手还很稳，但现在手指却在不停地颤抖。她想起了船员们，想起了朋友马库斯，他总是拿飞船的系统开玩笑；想起了同事莉拉，她是第一个察觉到爆炸来临的人；还有其他那些她已经记不起名字的人。他们都走了，但他们的声音却留在了这条消息里。

她再次按下发送按钮。屏幕闪烁了一下，有那么一瞬间，显示出绿色的信号：“传输成功”。她松了一口气，胸口因为欣慰而紧绷着。接着，屏幕一片漆黑，电力耗尽了。

驾驶舱陷入了死寂。灯光熄灭，温度骤降。珍坐在那里，凝视着空荡荡的屏幕。她的双手仍然放在控制台上。她已经发送了消息，但一切都太晚了。地球永远也收不到这条消息了。

她长长地叹了一口气，喃喃自语道：“该死，真他妈的该死。”

她又想起了船员们。想起了马库斯说过的话：“我们不会死在这里，我们会回家的。” 还有莉拉说的：“如果我们回不去，至少要留下点什么。”

珍微微露出一丝笑容。她做到了，她留下了一些东西。

她靠在椅子上，寒冷渐渐渗入她的骨髓。飞船正在死去，她也一样。但她不再孤单，至少在某种程度上不再孤单。船员们还和她在一起，他们的声音、他们的牺牲、他们与地球的联系，都通过这最后一次传输永远地留存了下来。

她闭上眼睛，有那么一瞬间，她感受到了一丝平静。

最后一次传输已经发出，飞船停止了运转，但消息却永远地留在了宇宙中。

在浩瀚的宇宙中，也许有人会听到这条消息，也许他们会记住，也许他们会知道，人类曾经努力过，曾经战斗过，他们不会被遗忘。

奥德赛号飞船的最后一位幸存者珍·科瓦尔离开了，但她的消息将永远流传下去。

示例生成 #3

参数设置

温度（Temp）：0.6
重复惩罚（rep pen）：1.06
重复惩罚范围（rep pen range）：64
前 k 个（topk）：100
前 p 个（topp）：.95
最小概率（minp）：.05

环境信息

量化类型：Q4KS [非 imatrix]
运行设备：仅 CPU（Windows 11）
运行工具：LMSTUDIO

速度

速度：11 T/S（无 GPU 卸载）
GPU 速度将是 4 倍或更高。

这是一个中级量化，预计 Imatrix Q4KS/更高量化/全精度会有更强的性能。

提示

浪漫故事：《聚光灯下的爱情》。写一个发生在威尔士的故事中的一个场景。一位著名的（虚构）演员为了躲避狗仔队，躲进了一个小镇的书店。场景将展现两人在这种奇特情况下的相遇。在这个场景中，演员和书店老板的对话中暗流涌动着一种未言明的情愫。将演员塑造成一个有点放荡不羁但自尊心脆弱的人，他需要每个人都喜欢他来满足自己的虚荣心。他魅力十足，但书店老板（至少表面上）对他的魅力免疫；这反而激起了他真正的兴趣，打乱了他的魅力攻势。尽管书店老板表面上对演员的魅力不屑一顾，但内心却被他深深吸引，甚至有些慌乱。主要以对话形式呈现，展现出每个角色独特的声音。字数在 800 - 1000 字之间。