Thedrummer Fallen Gemma3 4B V1 GGUF

由 bartowski 开发

这是一个基于TheDrummer/Fallen-Gemma3-4B-v1模型的量化版本，使用llama.cpp进行量化处理，适用于文本生成任务。

大型语言模型开源协议:其他 #多轮对话优化 #轻量化部署 #低资源推理

下载量 2,106

发布时间 : 3/22/2025

模型介绍

内容详情

替代品

模型简介

该模型是Fallen-Gemma3-4B-v1的量化版本，经过优化后可在资源有限的设备上运行，同时保持较高的文本生成质量。

模型特点

高效量化

使用llama.cpp进行imatrix量化，提供多种量化选项以适应不同硬件需求。

多量化版本

提供从BF16到Q2_K的多种量化版本，用户可根据需求选择最适合的版本。

优化运行

特别优化以在LM Studio和基于llama.cpp的项目中高效运行。

模型能力

文本生成

多轮对话

系统提示支持

使用案例

对话系统

智能客服

用于构建自动回复客户问题的智能客服系统。

能够生成自然流畅的回复，提升客户体验。

内容创作

文章生成

辅助创作者生成文章初稿或内容片段。

能够根据提示生成连贯的文本内容。

量化者：bartowski
流水线标签：文本生成
许可证：其他
基础模型关联：量化版
基础模型：TheDrummer/Fallen-Gemma3-4B-v1

TheDrummer的Fallen-Gemma3-4B-v1的Llamacpp imatrix量化版本

使用llama.cpp发布的b4925进行量化。

原始模型：https://huggingface.co/TheDrummer/Fallen-Gemma3-4B-v1

所有量化均使用imatrix选项，数据集来自此处。

在LM Studio中运行这些量化模型。

直接使用llama.cpp或任何其他基于llama.cpp的项目运行。

提示格式

<bos><start_of_turn>user  
{system_prompt}  

{prompt}<end_of_turn>  
<start_of_turn>model  
<end_of_turn>  
<start_of_turn>model

从下方下载单个文件（非整个分支）：

文件名	量化类型	文件大小	是否分割	描述
Fallen-Gemma3-4B-v1-bf16.gguf	bf16	7.77GB	false	完整的BF16权重。
Fallen-Gemma3-4B-v1-Q8_0.gguf	Q8_0	4.13GB	false	极高品质，通常不需要，但为最高可用量化。
Fallen-Gemma3-4B-v1-Q6_K_L.gguf	Q6_K_L	3.35GB	false	嵌入和输出权重使用Q8_0。极高品质，接近完美，推荐。
Fallen-Gemma3-4B-v1-Q6_K.gguf	Q6_K	3.19GB	false	极高品质，接近完美，推荐。
Fallen-Gemma3-4B-v1-Q5_K_L.gguf	Q5_K_L	2.99GB	false	嵌入和输出权重使用Q8_0。高品质，推荐。
Fallen-Gemma3-4B-v1-Q5_K_M.gguf	Q5_K_M	2.83GB	false	高品质，推荐。
Fallen-Gemma3-4B-v1-Q5_K_S.gguf	Q5_K_S	2.76GB	false	高品质，推荐。
Fallen-Gemma3-4B-v1-Q4_K_L.gguf	Q4_K_L	2.65GB	false	嵌入和输出权重使用Q8_0。良好品质，推荐。
Fallen-Gemma3-4B-v1-Q4_1.gguf	Q4_1	2.56GB	false	旧格式，性能类似Q4_K_S，但在Apple芯片上每瓦特生成更多令牌。
Fallen-Gemma3-4B-v1-Q4_K_M.gguf	Q4_K_M	2.49GB	false	良好品质，大多数用例的默认大小，推荐。
Fallen-Gemma3-4B-v1-Q3_K_XL.gguf	Q3_K_XL	2.40GB	false	嵌入和输出权重使用Q8_0。较低品质但可用，适合低RAM环境。
Fallen-Gemma3-4B-v1-Q4_K_S.gguf	Q4_K_S	2.38GB	false	品质略低但节省更多空间，推荐。
Fallen-Gemma3-4B-v1-Q4_0.gguf	Q4_0	2.37GB	false	旧格式，为ARM和AVX CPU推理提供在线重打包功能。
Fallen-Gemma3-4B-v1-IQ4_NL.gguf	IQ4_NL	2.36GB	false	类似IQ4_XS，但稍大。为ARM CPU推理提供在线重打包功能。
Fallen-Gemma3-4B-v1-IQ4_XS.gguf	IQ4_XS	2.26GB	false	尚可品质，比Q4_K_S更小但性能相似，推荐。
Fallen-Gemma3-4B-v1-Q3_K_L.gguf	Q3_K_L	2.24GB	false	较低品质但可用，适合低RAM环境。
Fallen-Gemma3-4B-v1-Q3_K_M.gguf	Q3_K_M	2.10GB	false	低品质。
Fallen-Gemma3-4B-v1-IQ3_M.gguf	IQ3_M	1.99GB	false	中低品质，新方法，性能与Q3_K_M相当。
Fallen-Gemma3-4B-v1-Q3_K_S.gguf	Q3_K_S	1.94GB	false	低品质，不推荐。
Fallen-Gemma3-4B-v1-Q2_K_L.gguf	Q2_K_L	1.89GB	false	嵌入和输出权重使用Q8_0。极低品质但意外可用。
Fallen-Gemma3-4B-v1-IQ3_XS.gguf	IQ3_XS	1.86GB	false	较低品质，新方法，性能尚可，略优于Q3_K_S。
Fallen-Gemma3-4B-v1-Q2_K.gguf	Q2_K	1.73GB	false	极低品质但意外可用。
Fallen-Gemma3-4B-v1-IQ3_XXS.gguf	IQ3_XXS	1.69GB	false	较低品质，新方法，性能尚可，与Q3量化相当。
Fallen-Gemma3-4B-v1-IQ2_M.gguf	IQ2_M	1.54GB	false	相对低品质，使用SOTA技术使其意外可用。

嵌入/输出权重

部分量化（如Q3_K_XL、Q4_K_L等）为标准量化方法，但嵌入和输出权重被量化为Q8_0而非默认值。

使用huggingface-cli下载

点击查看下载说明

首先，确保已安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，可以指定目标文件：

huggingface-cli download bartowski/TheDrummer_Fallen-Gemma3-4B-v1-GGUF --include "TheD

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

AIbase是一个专注于MCP服务的平台，为AI开发者提供高质量的模型上下文协议服务，助力AI应用开发。

简体中文

热门模型

Llama 3 Typhoon V1.5x 8b Instruct

Cadet Tiny

Roberta Base Chinese Extractive Qa

热门模型分类

热门标签