Q

Qwen3 30B A1.5B High Speed

由 DavidAU 开发
Qwen3-30B的高速优化版本,通过减少激活专家数量实现推理速度翻倍,适用于需要快速响应的文本生成场景
下载量 179
发布时间 : 5/3/2025
模型介绍
内容详情
替代品

模型简介

基于Qwen3-30B-A3B混合专家模型微调,将激活专家数量从8个减少到4个,显著提升推理速度同时保持模型能力

模型特点

高速推理
通过减少激活专家数量至4个(总128个),推理速度提升近一倍
32K长上下文
支持32K上下文长度+8K输出,总计40K处理能力
多量化格式支持
支持GGUF、GPTQ、EXL2、AWQ、HQQ等多种量化格式
高效资源利用
仅激活1.5B参数(总30B),在CPU/GPU上均有优异表现

模型能力

长文本生成
复杂推理
多轮对话
代码生成
创意写作

使用案例

内容创作
科幻小说创作
生成具有情感深度的科幻短篇故事
示例中展示了800-1000字的完整科幻故事创作
对话系统
深度思考对话
通过<think>标签展示AI的推理过程
模型能够展示详细的思考链和内心独白