Gemma 3开源轻量级大语言模型 - 4B参数W4A16量化版，降低硬件部署门槛

首页

Gemma 3 4b It Quantized W4A16

由 abhishekchohan 开发

Gemma 3是Google开发的轻量级开源大语言模型，本仓库提供其4B参数版本的W4A16量化模型，显著降低硬件需求。

大型语言模型

Transformers

#W4A16量化 #指令调优 #消费级部署

下载量 592

发布时间 : 3/17/2025

模型简介

基于Gemma 3指令调优模型的4位权重量化版本，适用于消费级硬件部署，保持良好性能的同时减少内存占用。

模型特点

高效量化

采用W4A16量化技术，权重量化至4位精度，激活值保持16位精度，显著降低内存需求。

指令调优

经过指令调优优化，能更好地理解和执行自然语言指令。

消费级硬件适配

量化后模型更适合在消费级GPU和CPU上运行，降低部署门槛。

模型能力

自然语言理解

文本生成

指令执行

对话交互

使用案例

智能助手

聊天机器人

构建响应迅速、理解力强的对话系统

流畅自然的对话体验

内容生成

文本创作

辅助写作、内容摘要等任务

高质量文本输出

🚀 Gemma 3 量化模型

本仓库包含谷歌 Gemma 3 指令微调模型的 W4A16 量化版本，在保持良好性能的同时，使这些模型更易于在消费级硬件上部署。

✨ 主要特性

提供了谷歌 Gemma 3 指令微调模型的量化版本，降低了对硬件的要求，便于在消费级设备上使用。
采用 W4A16 量化方式，在减少内存需求的同时，维持了较好的性能。

📦 安装指南

暂未提供安装步骤相关内容，可根据实际使用的框架和环境进行安装。

💻 使用示例

基础用法

使用 vLLM 运行模型的示例命令如下：

vllm serve abhishekchohan/gemma-3-{size}-it-quantized-W4A16 --chat-template templates/chat_template.jinja --enable-auto-tool-choice --tool-call-parser gemma --tool-parser-plugin tools/tool_parser.py

📚 详细文档

模型列表

abhishekchohan/gemma-3-27b-it-quantized-W4A16
abhishekchohan/gemma-3-12b-it-quantized-W4A16
abhishekchohan/gemma-3-4b-it-quantized-W4A16

仓库结构

gemma-3-{size}-it-quantized-W4A16/
├── README.md
├── templates/
│   └── chat_template.jinja
├── tools/
│   └── tool_parser.py
└── [model files]

量化细节

这些模型通过 LLM Compressor 使用 W4A16 量化：

权重量化为 4 位精度
激活值使用 16 位精度
显著降低了内存需求

🔧 技术细节

本仓库中的模型采用了 W4A16 量化技术，通过 LLM Compressor 工具实现。这种量化方式将模型的权重量化为 4 位精度，而激活值使用 16 位精度，在保证模型性能的前提下，大幅减少了内存需求，使得模型能够在消费级硬件上更轻松地部署。

📄 许可证

这些模型遵循 Gemma 许可证。用户在使用模型之前，必须确认并接受许可证条款。

📚 引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

⚠️ 重要提示

要在 Hugging Face 上访问 Gemma，您需要查看并同意 Google 的使用许可。为此，请确保您已登录 Hugging Face 并点击下方按钮。请求将立即处理。

💡 使用建议

在使用这些量化模型时，可根据自身硬件条件选择合适的模型大小，以获得最佳的性能和体验。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文