Q

Qwen3 30B A3B GGUF

由 ubergarm 开发
Qwen3-30B-A3B的量化版本,采用先进的非线性SotA量化技术,在给定内存占用下提供同类最佳的质量。
下载量 780
发布时间 : 5/2/2025
模型介绍
内容详情
替代品

模型简介

这是一个基于Qwen/Qwen3-30B-A3B模型的量化版本,专为高效推理设计,支持对话式交互,适用于文本生成任务。

模型特点

先进的非线性量化
使用ik_llama.cpp分支支持先进的非线性SotA量化,提供高质量推理。
高效内存占用
在24GB VRAM的GPU上可运行超过32k上下文,优化内存使用。
高性能推理
在3090TI FE 24GB VRAM上达到超过1600 tok/sec的PP和105 tok/sec的TG。

模型能力

文本生成
对话式交互
长上下文处理

使用案例

文本生成
对话系统
用于构建高效的对话系统,支持长上下文交互。
在32k上下文下保持高质量生成
内容创作
辅助生成高质量文本内容,如文章、故事等。