Qwen3-30B-A1.5B-64K-High-Speed-NEO-Imatrix-MAX-gguf开源模型

首页

Qwen3 30B A1.5B 64K High Speed NEO Imatrix MAX Gguf

由 DavidAU 开发

基于Qwen3-30B-A3B专家混合模型的优化版本，通过减少激活专家数量提升速度，支持64k上下文长度，适用于多种文本生成任务。

大型语言模型支持多种语言#64k超长上下文 #专家混合加速 #多语言创意写作

下载量 508

发布时间 : 5/11/2025

模型简介

该模型是对Qwen3-30B-A3B的微调版本，将激活专家数量从8个减少到4个（共128个专家），显著提升推理速度。适用于创意写作、问题解决、深度推理等多种文本生成场景。

模型特点

高速推理

通过减少激活专家数量，推理速度提升近一倍，CPU运行速度可达23 token/秒，GPU运行速度可达125+ token/秒。

64k上下文

通过YARN技术扩展上下文长度至64k（65535），适合处理长文本任务。

多量化版本支持

提供多种量化版本（如IQ1_M MAX、IQ2、Q4KS等），适用于不同硬件环境（GPU/CPU）。

专家混合结构

模型采用专家混合结构，自动选择最佳专家处理输入内容，平衡性能与质量。

模型能力

文本生成

创意写作

问题解决

深度推理

角色扮演

故事创作

工具调用

使用案例

创意写作

科幻小说创作

生成包含特定主题和情感的科幻小说片段。

生成内容情感丰富，主题突出，如示例中的《最后传输》片段。

问题解决

深度推理任务

通过长链思维系统化推理解决问题。

模型能够生成详细的思考过程（包裹在<think>标签中）并提供最终解答。

🚀 Qwen3-30B-A1.5B-64K-High-Speed-NEO-Imatrix-MAX-gguf - AKA: "Punch IT!"

这是一个基于Qwen的“Qwen 30B - A3B”（混合专家模型，MOE）的微调模型，将使用的专家数量从8个减少到4个（总共128个专家）。这种方法几乎使模型速度提高了一倍，并且使用1.5B（30B中的）参数，而不是3B（30B中的）参数。根据应用场景，你可能希望使用常规模型（“30B - A3B”），而将此模型用于更简单的用例。不过，在日常（但并非广泛）测试中，我并未发现功能有任何损失。

🚀 快速开始

本模型支持多种语言，包括英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、韩语、俄语、中文、阿拉伯语、波斯语、印尼语、马来语、尼泊尔语、波兰语、罗马尼亚语、塞尔维亚语、瑞典语、土耳其语、乌克兰语、越南语、印地语和孟加拉语。它适用于文本生成任务，具有64k上下文、高速、适用于所有用例、富有创造力等特点。

✨ 主要特性

多语言支持：支持24种语言，包括英语、法语、德语等。
高速运行：通过调整专家使用数量，接近使模型速度翻倍。
64k上下文：扩展了上下文长度至64k（65535）。
多种使用场景：适用于创意写作、角色扮演、问题解决等各种场景。
多种量化版本：提供多种量化尺寸版本，各有特点。

📦 安装指南

文档未提供具体安装步骤，可参考原始模型卡片 [https://huggingface.co/Qwen/Qwen3 - 30B - A3B](https://huggingface.co/Qwen/Qwen3 - 30B - A3B) 获取详细信息。

💻 使用示例

基础用法

使用Jinja模板或CHATML模板进行文本生成。以下是一个使用4个专家的示例生成（Q4KS，CPU）：

Temp 1.2, rep pen 1.06, rep pen range 64, topk 100, topp .95, minp .05
Q4KS [non - imatrix], CPU only (windows 11), LMSTUDIO.

高级用法

对于更复杂的用例，可能受益于使用常规版本和/或12、16或24个专家的版本：

[12个专家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A4.5B - 12 - Cooks)
[16个专家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A6B - 16 - Extreme)
[16个专家，128k上下文版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A6B - 16 - Extreme - 128k - context)
[24个专家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A7.5B - 24 - Grand - Brainstorm)

📚 详细文档

模型信息

属性	详情
模型类型	基于Qwen的“Qwen 30B - A3B”（MOE）的微调模型
基础模型	DavidAU/Qwen3 - 30B - A1.5B - High - Speed
上下文大小	64K（65535）

量化版本特点

IQ1_M MAX / IQ1_M MAX PLUS及更高量化版本：IQ2s表现良好。
Q2K/Q2KS：仅在CPU/RAM上使用时速度更快，但性能低于IQ2s。
Q3Ks：仅在CPU/RAM上使用时稍快，但性能低于IQ3s。
IQ3s及更高量化版本：与IQ2s、IQ1s和Q2s/Q3s相比，性能有很大提升，IQ4_XS/IQ4_NL在NEO Imatrix效果和特定质量方面达到峰值。
Q4s：高性能，但IQ4XS/IQ4NL与之接近甚至可能超越。
Q5s：非常高性能。
Q6：性能达到峰值，但NEO imatrix效果最小。

注意事项

IQ3s性能优于Q3s量化版本，IQ2s优于Q2s量化版本。
IQ4_XS / IQ4_NL性能与Q4s相当或更优。
IQ3_S / IQ3_M非常强大，可用于大多数任务。
所有Imatrix版本的量化版本性能优于非Imatrix版本。
“Q”量化版本通常比IQ量化版本更快（每秒令牌数），尤其是在CPU/RAM上运行时。
在某些配置下，Q2_K / Q2K_S（仅CPU/RAM操作）比IQ2/IQ3快25% - 100%。
GPU速度比仅CPU速度快4 - 8倍或更高，相对于其他“30B”模型，此模型速度也非常快（每秒令牌速度大致相当于1.5B“普通”模型速度）。

可选系统角色

你可能需要设置以下系统角色，尽管大多数情况下Qwen3s会自行生成推理/思考模块：

You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.

有关如何在各种LLM/AI应用中“设置”系统角色，请参阅文档“Maximizing - Model - Performance - All...”。

高质量设置/最佳操作指南/参数和采样器

如果你要使用此模型（源模型、GGUF或其他量化版本），请查看文档 [https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters) 以获取关键参数、采样器和高级采样器设置。该文档不仅适用于此模型，还可用于任何模型、任何仓库、任何量化版本（包括源代码操作），以增强模型的操作性能。

🔧 技术细节

本模型通过将使用的专家数量从8个减少到4个（总共128个专家），接近使模型速度翻倍，并使用1.5B（30B中的）参数。GGUF NEO Imatrix ggufs根据Qwen技术说明使用“YARN”将上下文扩展到64k（65535）。NEO Imatrix数据集是在测试和评估了50多个Imatrix数据集并进行大量调整后内部开发的。量化（和特定的Imatrix处理）是专门为Qwen3 30B - A1.5B模型设计的，并使用了LLamacpp（2025年4月15日 / B5127及以后）的最新更改来定制量化结构本身。