G

GLM Z1 32B 0414 GGUF

由 Mungert 开发
GLM-Z1-32B-0414是一个32B参数规模的多语言文本生成模型,支持中文和英文,采用MIT许可证发布。
下载量 994
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

该模型基于llama.cpp生成,支持文本生成任务,特别优化了超低比特量化技术,适用于内存受限的部署场景。

模型特点

IQ-DynamicGate超低比特量化
采用精度自适应量化技术,适用于1-2比特模型,在保持内存效率的同时显著提升精度。
动态精度分配
前25%和后25%的层使用IQ4_XS,中间50%使用IQ2_XXS/IQ3_S,关键组件保护使用Q5_K。
高性能推理
支持BF16和F16格式,适用于不同硬件加速需求,提供高速推理能力。

模型能力

文本生成
多语言支持
超低比特量化推理

使用案例

内存受限部署
CPU推理
在内存有限的CPU设备上运行模型,适用于边缘计算场景。
减少内存占用,保持合理精度。
低显存GPU推理
在显存有限的GPU上运行量化模型,适配资源受限环境。
显著降低显存需求,提升推理速度。
研究与应用
超低比特量化研究
用于研究1-2比特量化技术的效果和优化方法。
提供多种量化变体,便于对比分析。