Gemma 3-12b开源大语言模型 - 免费部署低内存需求且性能良好

首页

Gemma 3 12b It Quantized W4A16

由 abhishekchohan 开发

Gemma 3是Google开发的指令调优大语言模型，本仓库提供其12B参数的W4A16量化版本，显著降低内存需求同时保持良好性能。

大型语言模型

Transformers

#4位权重量化 #指令调优模型 #消费级硬件部署

下载量 1,754

发布时间 : 3/17/2025

模型简介

Gemma 3 12B指令调优模型的4位权重量化版本，适用于消费级硬件部署，支持工具调用和对话任务。

模型特点

高效量化

采用W4A16量化技术（4位权重+16位激活值），显著降低内存需求

工具调用支持

内置工具调用解析器，支持自动工具选择

消费级硬件适配

量化后可在消费级GPU上高效运行

模型能力

指令跟随

多轮对话

工具调用

文本生成

使用案例

对话系统

智能助手

部署为低资源消耗的对话助手

工具集成

API调用代理

解析自然语言指令并调用外部工具

🚀 Gemma 3 量化模型

本项目包含了谷歌 Gemma 3 指令微调模型的 W4A16 量化版本，在保持良好性能的同时，使这些模型更易于在消费级硬件上部署。

🚀 快速开始

本仓库提供了谷歌 Gemma 3 指令微调模型的 W4A16 量化版本，能在消费级硬件上轻松部署并保持良好性能。

✨ 主要特性

提供了不同规模的量化模型，包括 abhishekchohan/gemma-3-27b-it-quantized-W4A16、abhishekchohan/gemma-3-12b-it-quantized-W4A16 和 abhishekchohan/gemma-3-4b-it-quantized-W4A16。
使用 W4A16 量化，通过 LLM Compressor 实现，显著降低了内存需求。

📦 安装指南

暂未提供安装步骤相关内容。

💻 使用示例

基础用法

使用 vLLM 运行模型：

vllm serve abhishekchohan/gemma-3-{size}-it-quantized-W4A16 --chat-template templates/chat_template.jinja --enable-auto-tool-choice --tool-call-parser gemma --tool-parser-plugin tools/tool_parser.py

📚 详细文档

模型

abhishekchohan/gemma-3-27b-it-quantized-W4A16
abhishekchohan/gemma-3-12b-it-quantized-W4A16
abhishekchohan/gemma-3-4b-it-quantized-W4A16

仓库结构

gemma-3-{size}-it-quantized-W4A16/
├── README.md
├── templates/
│   └── chat_template.jinja
├── tools/
│   └── tool_parser.py
└── [model files]

量化细节

这些模型通过 LLM Compressor 使用 W4A16 量化：

权重量化为 4 位精度。
激活值使用 16 位精度。
显著降低了内存需求。

🔧 技术细节

本项目使用 W4A16 量化技术，通过 LLM Compressor 工具将模型的权重量化为 4 位精度，激活值保持 16 位精度。这种量化方式在保证模型性能的前提下，大幅降低了内存需求，使得模型能够在消费级硬件上高效运行。

📄 许可证

这些模型遵循 Gemma 许可证。用户在使用模型之前必须确认并接受许可条款。

📚 引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

⚠️ 重要提示

要在 Hugging Face 上访问 Gemma，你需要查看并同意 Google 的使用许可。为此，请确保你已登录 Hugging Face 并点击下方按钮。请求将立即处理。

💡 使用建议

在使用模型前，请仔细阅读并接受 Gemma 许可证的条款。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文