Google Gemma 3 4b It Qat GGUF

由 bartowski 开发

基于Google QAT权重量化的Gemma 3B模型，支持多种量化级别，适用于资源受限环境下的高效推理。

大型语言模型 #量化感知训练 #ARM/AVX优化 #多轮对话模型

下载量 4,538

发布时间 : 4/18/2025

模型介绍

内容详情

替代品

模型简介

这是Google Gemma 3B模型的量化版本，采用量化感知训练(QAT)技术生成，通过llama.cpp工具进行imatrix量化处理，提供从BF16到极低比特率的多种量化选项，特别适合在消费级硬件上运行。

模型特点

量化感知训练(QAT)

基于Google官方QAT权重生成，相比后训练量化能保持更好的模型性能

多样化量化选项

提供从BF16到极低比特率(Q2_K)的20+种量化版本，满足不同硬件需求

ARM架构优化

部分量化版本特别优化ARM处理器，支持在线权重重组

imatrix量化增强

使用llama.cpp的imatrix选项进行量化，基于专门数据集优化量化效果

模型能力

文本生成

对话系统

指令跟随

内容创作

使用案例

本地AI应用

个人助手

在本地设备上运行智能对话助手

低延迟响应，保护隐私

内容创作

辅助写作和创意生成

高质量文本输出

研究开发

量化技术研究

比较不同量化方法对模型性能的影响

提供多种量化版本对比

量化者：bartowski
流水线标签：图像文本到文本
标签：

gemma3
gemma
google
许可证：gemma
额外授权按钮内容：确认许可证
基础模型关系：量化版本
额外授权标题：在Hugging Face上访问Gemma
额外授权提示：
要访问Hugging Face上的Gemma，您需要审阅并同意Google的使用许可。请确保已登录Hugging Face账号并点击下方按钮。请求将即时处理。
基础模型：google/gemma-3-4b-it-qat-q4_0-unquantized

Google gemma-3-4b-it-qat的Llamacpp imatrix量化版本

这些量化模型基于Google提供的QAT（量化感知训练）权重生成。

仅 Q4_0版本预期表现更优，但制作过程中也生成了其他量化版本以供探索。

gemma-3-4b-it-qat-Q4_0.gguf | Q4_0 | 2.37GB | false | 因QAT技术提升性能，支持ARM和AVX CPU的在线权重重组推理。

使用llama.cpp版本b5147进行量化。

原始模型：https://huggingface.co/google/gemma-3-4b-it-qat-q4_0-unquantized

所有量化版本均采用imatrix选项，数据集来自此处

可通过LM Studio运行
或直接使用llama.cpp及其衍生项目

提示词格式

<bos><start_of_turn>user  
{系统提示}  

{用户提示}<end_of_turn>  
<start_of_turn>model  
<end_of_turn>  
<start_of_turn>model

文件下载（非完整分支）

文件名	量化类型	文件大小	分片	描述
gemma-3-4b-it-qat-bf16.gguf	bf16	7.77GB	false	完整BF16权重
gemma-3-4b-it-qat-Q8_0.gguf	Q8_0	4.13GB	false	极致质量，通常非必需但为最高可用量化
gemma-3-4b-it-qat-Q6_K_L.gguf	Q6_K_L	3.35GB	false	嵌入/输出层使用Q8_0，接近完美质量，推荐
gemma-3-4b-it-qat-Q6_K.gguf	Q6_K	3.19GB	false	极高质量，接近完美，推荐
gemma-3-4b-it-qat-Q5_K_L.gguf	Q5_K_L	2.99GB	false	嵌入/输出层使用Q8_0，高质量，推荐
gemma-3-4b-it-qat-Q5_K_M.gguf	Q5_K_M	2.83GB	false	高质量，推荐
gemma-3-4b-it-qat-Q5_K_S.gguf	Q5_K_S	2.76GB	false	高质量，推荐
gemma-3-4b-it-qat-Q4_K_L.gguf	Q4_K_L	2.65GB	false	嵌入/输出层使用Q8_0，良好质量，推荐
gemma-3-4b-it-qat-Q4_1.gguf	Q4_1	2.56GB	false	传统格式，Apple芯片上能效更优
gemma-3-4b-it-qat-Q4_K_M.gguf	Q4_K_M	2.49GB	false	良好质量，默认推荐尺寸
gemma-3-4b-it-qat-Q3_K_XL.gguf	Q3_K_XL	2.40GB	false	嵌入/输出层使用Q8_0，低内存适用
gemma-3-4b-it-qat-Q4_K_S.gguf	Q4_K_S	2.38GB	false	稍低质量但更省空间，推荐
gemma-3-4b-it-qat-Q4_0.gguf	Q4_0	2.37GB	false	传统格式，支持ARM/AVX在线重组
gemma-3-4b-it-qat-IQ4_NL.gguf	IQ4_NL	2.36GB	false	类似IQ4_XS但略大，支持ARM重组
gemma-3-4b-it-qat-IQ4_XS.gguf	IQ4_XS	2.26GB	false	质量尚可，体积小于Q4_K_S，推荐
gemma-3-4b-it-qat-Q3_K_L.gguf	Q3_K_L	2.24GB	false	低内存适用
gemma-3-4b-it-qat-Q3_K_M.gguf	Q3_K_M	2.10GB	false	低质量
gemma-3-4b-it-qat-IQ3_M.gguf	IQ3_M	1.99GB	false	中低质量，新方法性能接近Q3_K_M
gemma-3-4b-it-qat-Q3_K_S.gguf	Q3_K_S	1.94GB	false	低质量，不推荐
gemma-3-4b-it-qat-Q2_K_L.gguf	Q2_K_L	1.89GB	false	嵌入/输出层使用Q8_0，极低质量但可用
gemma-3-4b-it-qat-IQ3_XS.gguf	IQ3_XS	1.86GB	false	新方法性能略优于Q3_K_S
gemma-3-4b-it-qat-Q2_K.gguf	Q2_K	1.73GB	false	极低质量但可用
gemma-3-4b-it-qat-IQ3_XXS.gguf	IQ3_XXS	1.69GB	false	新方法性能接近Q3量化
gemma-3-4b-it-qat-IQ2_M.gguf	IQ2_M	1.54GB	false	前沿技术保持可用性

嵌入/输出层权重

部分量化版本（如Q3_K_XL、Q4_K_L等）对嵌入层和输出层采用Q8_0量化而非默认方法。

使用huggingface-cli下载

点击查看下载说明

首先安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

指定下载单个文件：

huggingface-cli download bartowski/google_gemma-3-4b-it-qat-GGUF --include "google_gemma-3-4b-it-qat-Q4_K_M.gguf" --local-dir ./

超过50GB的模型需下载分片文件：

huggingface-cli download bartowski/google_gemma-

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

AIbase是一个专注于MCP服务的平台，为AI开发者提供高质量的模型上下文协议服务，助力AI应用开发。

简体中文

热门模型

Llama 3 Typhoon V1.5x 8b Instruct

Cadet Tiny

Roberta Base Chinese Extractive Qa

热门模型分类

热门标签