GLM-4-32B-0414量化模型 - 开源适配消费级硬件，免费部署轻松用

首页

GLM 4 32B 0414.w4a16 Gptq

由 mratsim 开发

这是一个使用GPTQ方法对GLM-4-32B-0414进行4位量化的模型，适用于消费级硬件。

大型语言模型

Safetensors

开源协议:MIT #4位量化推理 #消费级硬件适配 #长文本生成

下载量 785

发布时间 : 5/4/2025

模型简介

该模型通过非对称GPTQ量化技术将GLM-4-32B-0414量化为4位（仅权重4位，W4A16），使其能够在消费级硬件上运行。

模型特点

4位量化

使用非对称GPTQ将模型量化为4位，显著减少显存占用。

消费级硬件适配

量化后的模型可以在32GB显存的GPU上运行。

高质量校准

使用2048个最大序列长度为4096的样本进行校准，最小化过拟合风险。

模型能力

文本生成

长序列处理

使用案例

文本生成

长文本生成

支持最大130000 tokens的长文本生成。

🚀 GLM-4-32B-0414使用GPTQ进行4位量化（仅权重4位，W4A16）

本项目包含使用非对称GPTQ将GLM-4-32B-0414量化为4位的模型，使其适用于消费级硬件。该模型使用来自数据集mit-han-lab/pile-val-backup的2048个最大序列长度为4096的样本进行校准。这是我第一个量化模型，欢迎大家提出建议。选择2048/4096而不是默认的512/2048是为了最小化过拟合风险并最大化收敛性，同时它们也能适配我的GPU。

🚀 快速开始

本模型已使用vLLM进行测试，以下是适用于32GB显存GPU的脚本：

export MODEL="mratsim/GLM-4-32B-0414.w4a16-gptq"
vllm serve "${MODEL}" \
  --served-model-name glm-4-32b \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --enable-chunked-prefill \
  --max-model-len 130000 \
  --max_num_seqs 256 \
  --generation-config "${MODEL}" \
  --enable-auto-tool-choice --tool-call-parser pythonic \
  --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}'

✨ 主要特性

量化适配：使用非对称GPTQ将GLM-4-32B-0414量化为4位，适配消费级硬件。
样本校准：使用来自数据集mit-han-lab/pile-val-backup的2048个最大序列长度为4096的样本进行校准。

🔧 技术细节

量化方法

使用llmcompressor库进行非对称GPTQ量化，具体配置如下：

default_stage:
  default_modifiers:
    GPTQModifier:
      dampening_frac: 0.005
      config_groups:
        group_0:
          targets: [Linear]
          weights: {num_bits: 4, type: int, symmetric: false, group_size: 128, strategy: group,
            dynamic: false, observer: minmax}
      ignore: [lm_head]

并在来自数据集mit-han-lab/pile-val-backup的2048个样本、序列长度为4096的数据上进行校准。

📄 许可证

本项目采用MIT许可证。

📦 模型信息

属性	详情
基础模型	THUDM/GLM-4-32B-0414
训练数据	mit-han-lab/pile-val-backup
模型类型	文本生成
标签	gptq、vllm、llmcompressor、text-generation-inference