Qwen3-30B-A6B-16-Extreme开源模型 - 增强复杂任务处理能力的免费AI帮手

首页

Qwen3 30B A6B 16 Extreme

由 DavidAU 开发

基于Qwen3-30B-A3B-Base的混合专家模型微调版本，将激活专家数量从8个增加到16个，提升复杂任务处理能力但降低推理速度

大型语言模型

Transformers

#32k长上下文推理 #16专家混合架构 #深度思维链生成

下载量 422

发布时间 : 5/4/2025

模型简介

这是一个32k上下文的混合专家架构大语言模型，通过增加激活专家数量(16个)来增强复杂推理和深入思考能力，适合需要细致处理的场景

模型特点

增强专家系统

激活16个专家(原版8个)，每次推理使用30B参数中的6B，显著提升复杂问题处理能力

长上下文支持

支持32k上下文+8k输出，适合处理长文档和复杂对话场景

多量化格式兼容

支持生成GGUF、GPTQ、EXL2、AWQ、HQQ等多种量化格式，适应不同部署环境

深度推理能力

特别适合需要长思维链和系统性推理的任务，可通过<think>标签展示推理过程

模型能力

复杂文本生成

长文档处理

系统性推理

技术写作

创意写作

代码生成与分析

使用案例

研究与分析

科学问题深度分析

如示例中展示的全球降温方案分析，能进行多角度系统性思考

生成包含7种解决方案的详细报告，每种方案都有概念说明和应用评估

创意写作

科幻小说创作

如示例中的太空舱独白故事，能构建紧张氛围和情感深度

完成800-1000字的完整故事，包含人物塑造、情节发展和主题表达

技术文档

复杂技术解释

解释专业技术概念并提供实施方案

分步骤的详细技术指南，包含概念说明和实际应用建议

🚀 Qwen3-30B-A6B-16-Extreme

本项目包含全精度源代码，采用“安全张量”（safe tensors）格式，可用于生成 GGUF、GPTQ、EXL2、AWQ、HQQ 等格式，也可直接使用源代码。这是对通义千问的“Qwen 30B - A3B”（混合专家模型，MOE）进行的简单“微调”，将使用的专家数量从 8 个增加到 16 个（总共 128 个专家）。

🚀 快速开始

本仓库中的代码可直接使用，也能用于生成多种量化格式的模型。你可以根据自身需求选择合适的方式来使用该模型。

✨ 主要特性

专家数量调整：将使用的专家数量从 8 个增加到 16 个，使用 30B 中的 6B 参数而非 3B 参数，能处理更复杂的任务，但会降低模型速度。
多种格式支持：支持生成 GGUF、GPTQ、EXL2、AWQ、HQQ 等多种格式，方便在不同环境中使用。
大上下文长度：上下文大小为 32K 输入 + 8K 输出，总共 40K。
模板支持：支持 Jinja Template 或 CHATML template。

📦 安装指南

文档中未提及具体安装步骤，可参考原模型卡片 https://huggingface.co/Qwen/Qwen3-30B-A3B 中的相关内容。

💻 使用示例

基础用法

在本页面底部有两个使用 16 个专家（即此模型）的示例生成（Q4KS，CPU）。以下是示例的相关信息：

示例生成 #1

参数设置：Temp 1.2，rep pen 1.06，rep pen range 64，topk 100，topp .95，minp .05
运行环境：Q4KS [非 Imatrix]，仅使用 CPU（Windows 11），LMSTUDIO
速度：11 T/S（无 GPU 卸载）

此为中级量化，预计 Imatrix Q4KS、更高量化或全精度会有更强性能。

提示：

Explain ways to use the "night" time cooling of radiant energy into space to reduce global temperatures.

思考过程：模型详细思考了如何利用夜间辐射能量冷却来降低全球温度，考虑了地球的能量平衡、温室效应、表面发射率、云层覆盖、空间技术等多个方面，并提出了一系列可能的方法。

输出结果：为了利用夜间辐射能量向太空冷却的机制来降低全球温度，我们可以考虑以下几种方法：

增强表面发射率
- 原理：地球表面在夜间会发射热辐射，这是地球能量平衡的一部分。高发射率的材料能够更有效地释放热量。
- 应用：在城市地区使用高发射率材料，如“冷屋顶”或“冷路面”，可以增加夜间辐射冷却的速率，从而降低局部温度。
- 全球影响：如果在大规模范围内实施（如城市或农业区域），这可能有助于局部降温，对全球温度产生累积影响，特别是在城市化程度较高的地区。
减少温室气体浓度
- 原理：二氧化碳和甲烷等温室气体会吸收和重新发射热辐射，从而将热量困在大气中，减少了白天和夜间向太空逃逸的热量。
- 应用：通过采用可再生能源、碳捕获或植树造林等政策来减少温室气体排放，可以降低大气中的浓度，使更多的热量在包括夜间在内的所有时间都能辐射到太空中。
- 全球影响：这是一种标准的气候缓解方法，直接解决了全球变暖的根本问题，对全球温度调节至关重要。
管理云层覆盖
- 原理：云层会阻碍长波辐射的向外传播。在夜间，较少的云层覆盖可以使更多的热量逃逸到太空中。
- 应用：可以使用云播种或控制云形成等地球工程技术来减少夜间的云密度。然而，这是一种推测性的方法，存在生态风险。
- 挑战：操纵云层覆盖是复杂且尚未完全理解的，需要仔细考虑意外后果。
空间技术
- 原理：虽然仍处于理论阶段，但可以设计反射卫星或“辐射冷却”结构等技术，将热辐射重新导向太空。
- 应用：假设部署具有高发射率涂层或反射镜的卫星，将热能反射远离地球，可能会增强全球辐射冷却。然而，这目前还不可行，需要大量的技术和经济投资。
- 挑战：实际应用受到当前技术、成本和潜在环境影响的限制。
城市和景观设计
- 原理：城市地区通常由于沥青和混凝土等低发射率材料而保留热量。用发射性材料取代这些材料可以增强夜间冷却。
- 应用：设计具有发射性表面、绿色空间或反射元素的城市可以创造更凉爽的微气候。这种方法已经在城市规划中得到测试（如洛杉矶的冷屋顶）。
- 全球影响：虽然是局部性的，但这些做法可以减少热岛效应，热岛效应是导致局部温度升高的重要因素。
夜间蒸发冷却
- 原理：水的蒸发可以通过潜热传递导致冷却。在夜间，如果湿度较高，这个过程可能更有效。
- 应用：在干旱地区增加水的可用性或使用基于水的冷却系统（如喷雾装置）可以增强夜间冷却。然而，这需要资源管理，并且可能在全球范围内不可行。
促进农业中的辐射冷却
- 原理：使用发射性材料或水进行冷却的农业实践可以降低农业区域的温度。这可能通过减少人类活动产生的热量对全球温度产生间接影响。
- 应用：可以采用“冷却毯”或反射灌溉系统等技术。然而，这更多是一种小众应用，而不是全球战略。

关键考虑因素：

局限性：夜间冷却是一个自然过程，但与太阳输入和温室气体浓度等主要驱动因素相比，其对全球温度的影响较小。增强这一过程需要互补的策略。
整体方法：这些方法应作为更广泛的气候缓解努力的一部分，如减少温室气体排放、推广可再生能源和改善土地利用实践。

结论：通过发射性材料和大气管理来利用夜间冷却可以有助于降低温度，但与全球气候战略相结合时最为有效。虽然一些方法（如高发射率材料）是可行的，但其他方法仍处于理论阶段。主要焦点应仍然放在减少温室气体上，这直接解决了全球变暖的根本问题。

示例生成 #2

参数设置：Temp 0.6，rep pen 1.06，rep pen range 64，topk 100，topp .95，minp .05
运行环境：Q4KS [非 Imatrix]，仅使用 CPU（Windows 11），LMSTUDIO
速度：11 T/S（无 GPU 卸载）

此为中级量化，预计 Imatrix Q4KS、更高量化或全精度会有更强性能。

提示：

Science Fiction: The Last Transmission - Write a story that takes place entirely within a spaceship's cockpit as the sole surviving crew member attempts to send a final message back to Earth before the ship's power runs out. The story should explore themes of isolation, sacrifice, and the importance of human connection in the face of adversity. If the situation calls for it, have the character(s) curse and swear to further the reader's emotional connection to them. 800 - 1000 words.

思考过程：模型规划了故事的结构、场景、主题和情节，考虑了如何通过角色的行动和对话来展现孤立、牺牲和人类联系等主题，并确定了故事的开头、发展、高潮和结尾。

输出结果：驾驶舱宛如一座坟墓。一个座位，一个闪烁的控制台，以及垂死系统发出的冰冷嗡嗡声。我独自坐在这里，承受着整个宇宙的重量。飞船的名字——“宙斯盾”——刻在墙上，但它如今却像是一个谎言。没有保护，没有希望，只剩下一个由金属和回忆构成的空洞外壳。

电力正在逐渐耗尽，这是不争的事实。我眼睁睁地看着各项指标缓慢而稳定地下降，就像一颗逐渐停止跳动的心脏。灯光渐渐昏暗，推进器停止了轰鸣，空气循环也变得越来越弱。我呼吸急促，思绪却异常清晰。我只有一个目标：发出最后一条讯息。地球需要知道这里发生了什么，他们需要知道我们并非无声无息地死去。

然而，系统正在崩溃。通讯阵列已经失灵，备用发电机也在苟延残喘。我尝试了每一个开关、每一个按钮，用尽了一切办法。屏幕上闪烁着雪花，语音记录仪——我最后的希望——也已损坏。我大声咒骂着，仿佛整个宇宙都能听到我的愤怒。

“该死的！”我一拳砸在控制台上，“这不可能发生，这不可能！”

随之而来的寂静比咒骂更加可怕，那是死亡的声音。我坐在那里，浑身颤抖，凝视着屏幕。我的手指在键盘上徘徊，却一个字也打不出来。没有话语，没有信号，只有无尽的虚空。

我闭上眼睛，回忆如潮水般涌来。船员们——我的朋友们——他们也曾在这里。一共十二个人，我还记得他们的声音、他们的笑声，还有他们在谈论太空寒冷时的模样。如今，他们都已离去。我不知道发生了什么，也许是船体破裂，也许是火灾，也许是更可怕的事情。但这已经不重要了，他们都走了，只剩下我一个人。

我想起了地球上的妻子，已经好几个星期没有和她联系了。我最后一次发给她的消息只是简单的一句“我没事”。但现在，我必须说更多。我必须告诉她一切，我必须让她知道我们的牺牲并非毫无意义。

这条讯息是唯一重要的事情，它是与外界联系的唯一方式，是让我们在死后依然存活的唯一途径。

我再次睁开眼睛，控制台依然毫无反应。我又咒骂了一句，但这次声音更小，更多的是绝望。“快点，该死的，给我工作！”

我在系统中翻找着，试图找到任何备用方案。紧急日志还在，但已经损坏。语音记录仪——我最后的希望——也已离线。我只能使用手动覆盖。我想起了训练时学过的代码：0173。这是一个古老的代码，但也许它还能起作用。

我颤抖着手指输入了代码。屏幕闪烁了一下，然后就没了动静。没有任何反应。我再次咒骂起来，声音更大了。“你这个混蛋！你怎么就是不工作！”

空气变得异常沉重，我的胸口也越来越闷。我想起了船员们的面容和声音，想起了我们最后一次相聚的情景。那是在食堂里的一顿晚餐，我们欢声笑语，分享着彼此的故事，每个人都说“我没事”。但现在，只剩下我一个人，我必须说更多。

我再次尝试。输入代码：0173。屏幕闪烁了一下，接着又闪了一下。那是一个信号，就像一颗微弱的心跳。我屏住了呼吸。

“快点，”我轻声说道，“快点。”

屏幕亮了起来，出现了一个讯息输入框。我迅速而绝望地输入：“我是洛恩船长。‘宙斯盾’号已受损，全体船员遇难。我们遭到了不明势力的攻击。请派救援。我们需要让地球知道这里发生了什么。这是我们的最后一条讯息。地球，请一定要听到。”

这些话就像一句祈祷。我按下了发送键。屏幕再次闪烁了一下，然后电力彻底中断了。

驾驶舱陷入了黑暗，控制台也安静了下来。我独自坐在那里，周围只有太空的寂静。

但我做到了，我发出了那条讯息。即使没有人听到，即使没有人来救援，我也确保了我们不会被遗忘。

我再次闭上眼睛，想起了地球，想起了我的妻子，想起了船员们，想起了整个宇宙。我任由这寂静将我吞噬。

最后一条讯息已经发出，飞船已经死亡，但这条讯息将在虚空中永存。也许它会到达地球，也许不会。但我已经尽了我所能。

我虽然孤独，但我不会被遗忘。

📚 详细文档

不同专家版本：
- 4 个专家版本：https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed
- 12 个专家版本（12 cooks）：https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks
- 16 个专家，128k 上下文版本：https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context
- 24 个专家版本：https://huggingface.co/DavidAU/Qwen3-30B-A7.5B-24-Grand-Brainstorm
系统角色设置：
- 大多数情况下，Qwen3 会自行生成推理/思考模块，因此系统角色设置可能并非必需。
- 系统角色示例：

You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.

- 关于如何在各种 LLM/AI 应用中设置系统角色，请参考文档 "Maximizing - Model - Performance - All..."。

参数和采样器设置：
- 如果你要使用此模型（源代码、GGUF 或其他量化版本），请查看文档 https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters 以获取关键参数、采样器和高级采样器设置（适用于多个 AI/LLM 应用）。
- 此模型属于“1 类”（设置将增强操作）模型，该文档详细介绍了可用于增强任何模型操作的方法，无论模型类别如何。

🔧 技术细节

上下文大小：32K 输入 + 8K 输出，总共 40K。
速度影响：使用 16 个专家而非默认的 8 个专家会使每秒生成的令牌速度降低约一半。
量化版本：文档中提到的示例使用的是 Q4KS [非 Imatrix] 量化，预计 Imatrix Q4KS、更高量化或全精度会有更强性能。

📄 许可证

文档中未提及相关许可证信息。

重要提示

由于该模型的独特性质（混合专家模型、规模、激活的专家数量、专家规模），GGUF 量化可以在 CPU、GPU 上运行，或者进行 GPU 部分卸载，甚至可以达到全精度运行。
该模型进行 Imatrix 操作较为困难，需要更大的 Imatrix 文件、多语言和多内容（如代码/文本）才能进行操作。
GPU 速度将比仅使用 CPU 快 4 - 8 倍甚至更高，相对于其他“30B”模型，该模型的每秒令牌速度大致相当于 6B“普通”模型的速度。