Q

Qwen3 235B A22B GGUF

由 ubergarm 开发
Qwen3-235B-A22B 是一个2350亿参数的大型语言模型,经过ik_llama.cpp分支的先进非线性量化处理,适用于高性能计算环境。
下载量 889
发布时间 : 4/30/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个混合量化的大型语言模型,专为高性能计算环境设计,支持对话式文本生成任务。

模型特点

先进非线性量化
使用ik_llama.cpp分支进行SotA级别的非线性量化,在给定内存占用下提供最佳质量。
混合专家架构
采用混合专家模型(MoE)架构,包含94个重复层/块,优化了计算资源分配。
高性能推理
设计用于在高端硬件配置下运行,支持GPU+CPU混合推理,实现高吞吐量。

模型能力

文本生成
对话式交互
长上下文处理(支持32k上下文)

使用案例

高性能计算
游戏主机上的高质量LLM
在配备高端GPU和大量RAM的游戏主机上运行高质量语言模型
在测试中获得高达140 tok/sec的预填充速度和10 tok/sec的文本生成速度
研究开发
量化技术研究
用于研究先进的模型量化技术和方法