G

GLM 4 32B 0414.w4a16 Gptq

由 mratsim 开发
这是一个使用GPTQ方法对GLM-4-32B-0414进行4位量化的模型,适用于消费级硬件。
下载量 785
发布时间 : 5/4/2025

模型简介

该模型通过非对称GPTQ量化技术将GLM-4-32B-0414量化为4位(仅权重4位,W4A16),使其能够在消费级硬件上运行。

模型特点

4位量化
使用非对称GPTQ将模型量化为4位,显著减少显存占用。
消费级硬件适配
量化后的模型可以在32GB显存的GPU上运行。
高质量校准
使用2048个最大序列长度为4096的样本进行校准,最小化过拟合风险。

模型能力

文本生成
长序列处理

使用案例

文本生成
长文本生成
支持最大130000 tokens的长文本生成。
AIbase
智启未来,您的人工智能解决方案智库
简体中文