Q

Qwen3 30B A1.5B 64K High Speed NEO Imatrix MAX Gguf

由 DavidAU 开发
基于Qwen3-30B-A3B专家混合模型的优化版本,通过减少激活专家数量提升速度,支持64k上下文长度,适用于多种文本生成任务。
下载量 508
发布时间 : 5/11/2025
模型介绍
内容详情
替代品

模型简介

该模型是对Qwen3-30B-A3B的微调版本,将激活专家数量从8个减少到4个(共128个专家),显著提升推理速度。适用于创意写作、问题解决、深度推理等多种文本生成场景。

模型特点

高速推理
通过减少激活专家数量,推理速度提升近一倍,CPU运行速度可达23 token/秒,GPU运行速度可达125+ token/秒。
64k上下文
通过YARN技术扩展上下文长度至64k(65535),适合处理长文本任务。
多量化版本支持
提供多种量化版本(如IQ1_M MAX、IQ2、Q4KS等),适用于不同硬件环境(GPU/CPU)。
专家混合结构
模型采用专家混合结构,自动选择最佳专家处理输入内容,平衡性能与质量。

模型能力

文本生成
创意写作
问题解决
深度推理
角色扮演
故事创作
工具调用

使用案例

创意写作
科幻小说创作
生成包含特定主题和情感的科幻小说片段。
生成内容情感丰富,主题突出,如示例中的《最后传输》片段。
问题解决
深度推理任务
通过长链思维系统化推理解决问题。
模型能够生成详细的思考过程(包裹在<think>标签中)并提供最终解答。