Gemma 3-27b开源大语言模型 - 量化版本大幅降低硬件需求免费部署

首页

Gemma 3 27b It Quantized W4A16

由 abhishekchohan 开发

Gemma 3是Google开发的指令调优大语言模型，本仓库提供其27B参数的W4A16量化版本，显著降低硬件需求

大型语言模型

Transformers

#4位量化 #指令微调 #消费级部署

下载量 640

发布时间 : 3/17/2025

模型简介

Gemma 3是Google开发的高效大语言模型，经过指令调优优化对话能力。本量化版本通过4位权重和16位激活值量化，使模型能在消费级硬件上运行

模型特点

高效量化

采用W4A16量化技术，权重压缩至4位精度，显著降低内存需求

指令调优

经过专门指令调优，优化对话和任务执行能力

工具支持

内置工具调用功能，支持自动工具选择和解析

模型能力

文本生成

多轮对话

工具调用

指令理解

多模态理解（推断，基于image-text-to-text标签）

使用案例

对话系统

智能助手

部署为个人或企业级智能助手

提供流畅自然的对话体验

开发工具

代码辅助

帮助开发者完成代码生成和解释任务

🚀 Gemma 3 量化模型

本项目包含了谷歌 Gemma 3 指令微调模型的 W4A16 量化版本，在保持良好性能的同时，让这些模型更易于在消费级硬件上部署。

🚀 快速开始

若要在 Hugging Face 上使用 Gemma，你需要查看并同意谷歌的使用许可。请确保你已登录 Hugging Face 并点击下方按钮，请求将立即处理。

⚠️ 重要提示

要访问 Hugging Face 上的 Gemma，你需要查看并同意 Google 的使用许可。为此，请确保你已登录 Hugging Face 并点击下方按钮。请求将立即处理。

✨ 主要特性

提供了不同规模的 Gemma 3 量化模型，包括 27B、12B 和 4B 版本。
使用 W4A16 量化，显著降低了内存需求。

📦 安装指南

暂未提供具体安装步骤。

💻 使用示例

基础用法

使用 vLLM 运行量化模型：

vllm serve abhishekchohan/gemma-3-{size}-it-quantized-W4A16 --chat-template templates/chat_template.jinja --enable-auto-tool-choice --tool-call-parser gemma --tool-parser-plugin tools/tool_parser.py

📚 详细文档

模型

abhishekchohan/gemma-3-27b-it-quantized-W4A16
abhishekchohan/gemma-3-12b-it-quantized-W4A16
abhishekchohan/gemma-3-4b-it-quantized-W4A16

仓库结构

gemma-3-{size}-it-quantized-W4A16/
├── README.md
├── templates/
│   └── chat_template.jinja
├── tools/
│   └── tool_parser.py
└── [model files]

量化细节

这些模型通过 LLM Compressor 使用 W4A16 量化：

权重量化为 4 位精度。
激活值使用 16 位精度。
显著降低了内存需求。

🔧 技术细节

这些模型使用 W4A16 量化方式，借助 LLM Compressor 工具实现。将权重量化到 4 位精度，而激活值采用 16 位精度，这样的量化策略在保证模型性能的同时，能显著减少内存需求，使得模型更适合在消费级硬件上部署。

📄 许可证

这些模型遵循 Gemma 许可协议。用户在使用模型前必须确认并接受许可条款。

📚 引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文