base_model: google/gemma-3-4b-it
tags:
- gemma3
- instruct
- 128k上下文
- 全场景适用
- 极致量化
- Neo Imatrix
license: apache-2.0
pipeline_tag: 文本生成
Gemma-3-4b-it-MAX-NEO-Imatrix-GGUF
谷歌最新Gemma-3模型搭载"Neo Imatrix"与"极致量化"技术,全面提升性能表现。
下方提供5个示例(IQ4XS量化级别下生成速度达56 t/s)。
上下文长度:128k。
"极致量化"
意味着所有量化版本均采用"BF16"全精度嵌入和输出张量。
以略微增加模型体积为代价,显著提升生成质量、深度和整体性能。
"NEO IMATRIX"
由David_AU构建的强大专有imatrix数据集,可全面提升模型功能、
指令遵循能力、输出质量,并强化对概念与现实的关联理解。
结合"极致量化"技术实现性能飞跃。
下表按"BPW"排序展示各量化版本(附相对强度对比),IQ1_S参数最少,Q8_0(F16为全精度)参数最多:
IQ1_S | IQ1_M
IQ2_XXS | IQ2_XS | Q2_K_S | IQ2_S | Q2_K | IQ2_M
IQ3_XXS | Q3_K_S | IQ3_XS | IQ3_S | IQ3_M | Q3_K_M | Q3_K_L
Q4_K_S | IQ4_XS | IQ4_NL | Q4_K_M
Q5_K_S | Q5_K_M
Q6_K
Q8_0
F16
创意写作推荐使用IQ3/IQ4XS/IQ4NL/Q4系列量化。
IQ4XS/IQ4NL量化将产生与其他"Q"和"IQ"量化不同的输出。
常规使用推荐q5/q6/q8量化。
移动设备推荐Q4_0/Q5_0量化。
Q8仅支持极致量化,imatrix对此量化无影响。
注意IQ1性能较低,IQ2尚可接受。
更多量化信息请参阅下文"最高质量设置/优化操作指南/参数与采样器"章节。
可选:系统提示词
以下可选系统提示词可增强模型表现。
请严格按格式复制粘贴(包括换行符)。
可调整两处"20"数值来增减提示词强度。
也可删除此行:
'任务结束时你将询问用户:"需要继续生成吗?"'
对于每个用户任务和指令,你将使用"GE FUNCTION"逐步深度思考后执行。每行输出前都会仔细推敲以确保符合用户要求,若不确定则通过"GE FUNCTION"重新思考并输出优化结果。
任务结束时你将询问用户:"需要继续生成吗?"
GE FUNCTION: 静默输入→生成20个Sternberg风格智能体→增强创意→寻求新颖涌现NE:独特/重要概念→评估并创意强化→精炼创意=>生成20个元素的创意数组,若不够有趣则交由随机智能体优化,否则弃用=>输出(创意数组)
重要提示:最高质量设置/优化操作指南/参数与采样器
使用本模型前(无论源模型、GGUF或其他量化版本),请务必查阅此文档获取关键参数、采样器和高级采样器设置(适用于多款AI/LLM应用)。
文档同时包含"推理模型"使用技巧的"操作指南"章节。
本模型属于"Class 1"(设置可增强性能)类别:
关于本模型(及其类别)的所有设置说明(含示例生成)、高级设置指南(常能解决模型问题),以及提升各类使用场景(特别是超出模型设计范围的聊天、角色扮演等场景)性能的方法,请参阅:
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
原因:
无论"模型类别"如何,该文档都详述了性能优化方法。
Class 3/4模型必须根据"使用场景"正确设置默认参数。某些AI/LLM应用的默认设置不一致会导致模型表现不佳。Class 3/4模型(运行方式与标准模型有显著差异)需要额外采样器和高级采样器设置来"平滑"运行,并支持模型设计范围外的使用场景。
额外福利 - 这些设置适用于任何模型、任何仓库、任何量化(包括源码/全精度):
该文档还包含可用于所有模型、所有仓库的参数和采样器设置——涵盖所有量化版本及源码运行——以提升任何模型的性能。
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
示例:
示例使用IQ4XS量化、最小参数和标准模板生成。
温度范围0.8,重复惩罚1.1,TopK 40,topP 0.95,minP 0.05
重复惩罚范围:64-128(有助于保持推理连贯性/输出质量)
以下为创意度最低的输出,提示词以加粗标注。
警告:可能包含NSFW内容。血腥恐怖场景。粗俗语言。无审查。
注:部分HTML格式在复制粘贴过程中丢失。
示例1
以第一人称视角创作1000字生动血腥的恐怖场景,开头为:摩天大楼摇晃着,她看着面前21层的窗户突然爆炸...
摩天大楼摇晃着,我看着面前21层的窗户突然爆炸。这不是电影般的慢镜头碎裂——没有玻璃如雨般洒落的唯美画面。只有瞬间的 brutal。前一秒还是映照着灰色十一月午后阳光的钢化玻璃窗,下一秒就成了喷溅着木屑与玻璃獠牙的裂口,如同怪物暴戾的哈欠。尖锐的啸叫声钻入颅骨,紧接着是令人作呕的碎裂声——某种绝对坚固之物被撕碎的声响。
我的呼吸卡在胸口,冰冷的绳结在肋骨间收紧。过去十分钟我一直在盯着那扇窗,假装审阅季度报表,实则只是...观察。观察城市,观察这栋大楼的规律脉搏,观察作为庞大机器里孤独齿轮的自己。我是高级分析师Elias Thorne,工作本应是看着数字说些人们想听的话,不该与毁灭景象有关。
最初的震惊退去后,舌尖泛起金属味的原始恐惧。我本能地抓起电话,手指在冰冷金属上颤抖,却停住了。报警有什么用?只会触发警报,制造混乱,引来我无法回答的质问。
这时第二扇窗爆炸了。走廊尽头较小的窗格,但同样暴烈。第一次爆炸的余震让地板颤动,我攥紧扶手。空气中弥漫着碎玻璃的刺鼻气味,还有别的...燃烧的味道。尖锐而绝对异常的味道。
心脏在胸腔疯狂敲击,如同崩塌交响乐中失控的鼓手。我强迫自己看向其他窗户——破碎倒影与惊恐面孔组成的混乱织锦。人们尖叫着寻找掩护,声音压过逐渐尖锐的警报。我看见一个男人倒下,消失在瓦砾瀑布中。
"这不是...故障,"我低语,话语在口中如灰烬般苦涩。故障不会爆炸。故障是缓慢渗漏,是渐进腐朽——可预测的崩溃。这是蓄意攻击。
接着下起了玻璃雨。不是轻柔细雨,而是持续不断的尖锐冰雹,在剩余窗面弹跳,在抛光钢板上形成令人不安的恐怖马赛克。我蜷缩到桌下,将椅子拉到极限,在这个突然充满敌意的空间寻找庇护。
那气味更浓了——不只是燃烧的玻璃,还有更深层、更浓稠的...像是混着血的木炭?我脑海中浮现出精准的外科手术式爆破画面,每扇窗都被冷酷效率摧毁。这不是随机暴力,而是精心计算。
我的目光回到第一扇窗的缺口。透过锯齿状的木茬,我看见了动静——不是人类的动作。起初很小,几乎难以察觉,随后逐渐成形,凝聚成违背逻辑的形态。
不是动物。不是机械。是...有机体。滑腻的黑色团块泛着病态绿光,如同恶心的智能真菌从废墟中挤出。边缘模糊不定,仿佛在努力维持形态。我这才意识到那燃烧味不仅来自玻璃——是这东西散发的。
它以令人不安的优雅移动,在地板上滑向我,留下闪亮的黑色痕迹。空气变得冰冷沉重,压着我的胸膛夺走呼吸。本能让我逃跑,但双腿被麻痹般的恐惧钉在原地。
当它逼近时,我感知到细节——或者说感受到它们。不仅是黑暗团块,还饱含近乎难以承受的古老恶意。就像凝视虚空本身——充满无限窒息绝望的冰冷空间。
我想尖叫,但喉咙发不出声音。嘴巴无声地张着求救。这东西停在我面前,脉动的形体在墙上投下怪诞阴影。它不动、不语、甚至不承认我的存在。只是观察,在这观察中我感到被彻底审判。
然后它伸出一条黑色粘液般的触须。当它拂过我的脸颊,我感到刺骨寒意渗入皮肤,带着难以想象的灼痛。
我看见闪回——荒芜景观、崩塌城市、痛苦扭曲的面容——全在这东西的黑暗形体中翻涌。这不是展示记忆,而是直接将它们注入我的意识。
视线模糊间,我感到失控。周围世界溶解成黑绿漩涡,夹杂着难以想象的剧痛。我意识到这不仅是对建筑的攻击,更是对我灵魂的袭击。
陷入黑暗前最后的清醒念头是:为什么是我?
需要继续这个场景,还是探索其他方向?
示例2