Qwen3-30B-A7.5B-24-Grand-Brainstorm开源模型 - 免费部署助力复杂任务深度推理

首页

Qwen3 30B A7.5B 24 Grand Brainstorm

由 DavidAU 开发

基于Qwen3-30B-A3B混合专家模型的微调版本，激活专家数量从8个增加到24个，适用于需要深度推理的复杂任务

大型语言模型

Transformers

#24专家深度推理 #32k长上下文 #混合专家架构

下载量 55

发布时间 : 5/4/2025

模型简介

这是一个增强版的混合专家模型，通过增加激活专家数量（24个）来提升复杂推理能力，适合需要深入思考和分析的场景。

模型特点

增强的专家系统

使用24个专家（原版为8个），激活30B参数中的7.5B参数，显著提升复杂任务处理能力

长上下文支持

支持32k上下文+8k输出，总计40k tokens的长文本处理

灵活的量化支持

支持GGUF、GPTQ、EXL2、AWQ、HQQ等多种量化格式，可在CPU/GPU上运行

深度推理能力

特别适合需要长思维链和系统性推理的复杂任务

模型能力

复杂文本生成

深度推理

长文本处理

多轮对话

使用案例

科学研究

气候解决方案分析

分析利用太空辐射冷却效应降低全球温度的方法

能生成20+种创新解决方案

创意写作

科幻故事创作

生成探讨人类情感和生存主题的科幻短篇

能创作具有深度情感描写的完整故事

问题解决

创新思维激发

针对特定问题提出'跳出框架'的解决方案

能系统性地生成多种创新思路

🚀 Qwen3-30B-A7.5B-24-Grand-Brainstorm

本项目仓库包含全精度的源代码，以“安全张量（safe tensors）”格式存储，可用于生成GGUF、GPTQ、EXL2、AWQ、HQQ等格式，也可直接使用该源代码。

这是对通义千问的“Qwen 30B - A3B”（混合专家模型，MOE）进行的简单“微调”，将使用的专家数量从8个增加到了24个（总共128个专家）。在本页面底部展示了使用24个专家/此模型进行的三次示例生成（Q4KS，CPU）。

🚀 快速开始

此仓库中的模型是对Qwen的“Qwen 30B - A3B”模型的微调版本，增加了使用的专家数量。你可以直接使用源代码，也可以将其转换为其他格式（如GGUF、GPTQ等）使用。

✨ 主要特性

更多专家参与：将使用的专家数量从8个增加到24个，使用75亿（总300亿）参数而非30亿（总300亿）参数来处理输入提示。这虽然会降低模型速度，但能处理更复杂的任务。
不同版本选择：除了24专家版本，还有使用4、8、12、16个专家的版本，可根据不同应用场景选择。
大上下文长度：上下文长度为32K，输出长度为8K，总共40K。
多模板支持：支持Jinja模板和CHATML模板。

📦 安装指南

文档未提及具体安装步骤，暂无法提供。

💻 使用示例

基础用法

由于文档未提供基础用法的代码示例，暂无法展示。

高级用法

同样，文档未给出高级用法的代码示例，无法提供。

📚 详细文档

模型选择建议

常规或简单用例：可使用正常的8专家版本、“12专家”版本、16专家的“Extreme”版本（32K或128K上下文）或“高速”（4专家）版本。
复杂用例：对于非常复杂或需要更深入处理的用例，可使用本24专家版本。

速度影响

使用24个专家而非默认的8个专家会使每秒生成的token速度降低约2/3。因此，对于某些用例，24专家版本可能过于“强大”。

温度参数建议

对于某些用例，建议使用较高的温度参数（如1以上、2以上）。

其他版本尝试建议

建议尝试4、8、12和16专家版本，它们的每秒token生成速度更快，可能更适合你的用例。

系统角色设置

你可能需要设置系统角色，具体设置方法可参考文档 https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters。

高质量设置和参数

使用此模型（源代码、GGUF或其他量化版本）时，请查看上述文档以获取关键参数、采样器和高级采样器的设置。这些设置适用于所有AI/LLM应用程序，可提高模型的性能。

🔧 技术细节

量化格式运行：由于该模型的独特性质（混合专家模型、模型大小、激活的专家数量、专家大小），GGUF量化版本可以在CPU、GPU上运行，也可以进行GPU部分“卸载”，甚至可以使用全精度运行。
矩阵化难度：该模型进行矩阵化较为困难，需要更大的矩阵文件，且该文件需包含多语言、多内容（如代码/文本）。
GPU速度：GPU运行速度比仅使用CPU快4 - 8倍甚至更多，相对于其他“30B”模型，此模型的每秒token生成速度大致相当于75亿参数的“普通”模型速度。

📄 许可证

文档未提及相关许可证信息，暂无法提供。

示例生成

示例生成 #1

参数设置：温度1.2，重复惩罚1.06，重复惩罚范围64，top - k 100，top - p 0.95，min - p 0.05。
运行环境：Q4KS [非矩阵化]，仅使用CPU（Windows 11），LMSTUDIO。
速度：每秒8个token（无GPU卸载）。

这是一个中级量化版本，预计矩阵化的Q4KS、更高量化版本或全精度版本会有更强的性能。

提示：解释如何利用夜间辐射能向太空的冷却作用来降低全球气温。

输出：利用夜间辐射能向太空的冷却作用来降低全球气温，涉及利用地球在太阳辐射输入较少时向大气和太空发射热辐射的自然能力。以下是几种可能实现这一目标的方法：

增强地表发射率
- 高发射率材料：工程设计具有高红外发射率的表面（如黑体材料、特殊陶瓷或涂层），可以在夜间发射更多热量，增加地球表面向太空的热损失率，有效冷却局部环境，有助于全球热平衡。
- 城市和农业应用：在城市地区（如建筑物、道路）或农业区域使用此类材料，可以减少局部热量积聚，间接降低全球整体气温。
减少大气温室气体
- 缓解策略：通过碳捕获技术、植树造林和向可再生能源转型等方式降低温室气体（二氧化碳、甲烷等）的浓度，使更多的热辐射在夜间和白天都能逃逸出大气层，减少“辐射捕获”效应，使地球更有效地冷却。
- 大气工程：如人工造云或气溶胶操纵等技术，可以在夜间暂时降低大气的不透明度，增强热辐射的逃逸。
主动冷却系统
- 热发射结构：部署在夜间主动发射热量的系统（如高发射率面板、专为红外辐射设计的反射表面），可以最大限度地增加热损失。这些系统可以集成到城市基础设施或大型环境项目中。
- 热存储和发射：使用在白天吸收热量并在夜间辐射热量的材料（如相变材料、热存储块），可以减少热量积聚，使地球的热平衡向较低温度偏移。
结合昼夜策略
- 两用材料：具有低反照率（在可见光下反射）以在白天最小化太阳吸收，同时在夜间具有高发射率（在红外线下发射）的材料，可以优化热量保留和释放，提高整体冷却效率。
- 动态表面管理：根据一天中的时间动态调整表面特性（如自适应涂层或智能材料），可以在夜间最大化辐射冷却，同时在白天最小化加热。
天基解决方案
- 卫星系统：部署卫星或反射阵列，在夜间将热辐射重新导向太空，可以增强地球的能量发射能力，但这需要先进的工程技术，目前仍处于设想阶段。