模型语言支持:
- 英语
- 法语
- 德语
- 西班牙语
- 葡萄牙语
- 意大利语
- 日语
- 韩语
- 俄语
- 中文
- 阿拉伯语
- 波斯语
- 印尼语
- 马来语
- 尼泊尔语
- 波兰语
- 罗马尼亚语
- 塞尔维亚语
- 瑞典语
- 土耳其语
- 乌克兰语
- 越南语
- 印地语
- 孟加拉语
许可证:
Apache-2.0
标签:
- 全场景适用
- 创意写作
- 所有体裁
- 工具调用
- 工具使用
- 问题解决
- 深度思考
- 推理能力
- 深度推理
- 故事创作
- 写作
- 小说
- 角色扮演
- bfloat16
- 角色扮演游戏
- sillytavern
- backyard
- llama 3.1
- 128k上下文
- mergekit
- 模型合并
- 专家混合
- 专家组合
基础模型:
DavidAU/Llama3.1-MOE-4X8B-Gated-IQ-Multi-Tier-Deep-Reasoning-32B
管道标签:
文本生成
Llama3.1-MOE-4X8B-Gated-IQ-Multi-Tier-Deep-Reasoning-32B-GGUF
重要提示:本模型整合了NousResearch和DeepHermes模型的可开关/变量控制推理能力,需要通过特定系统提示来激活推理/思考功能,该功能可通过模型内部结构(额外3个非推理核心模型)增强至300%性能。最佳性能操作指南请见下文。

上下文长度:128k
必需模板:Llama 3 Instruct模板
"Gated-IQ-Multi-Tier-Deep-Reasoning"是一个全温度/全设置下运行的变量控制推理模型,适用于所有使用场景。
该模型的独特内部结构允许在"推理"阶段同时运行全部4个子模型,其中推理模型在此过程中占据主导地位,而在输出生成阶段则会切换模式。
通过特殊的内部架构,用户可以直接通过提示词、名称和关键词控制一个或多个子模型,这使得本模型具有独特而强大的能力。
下文将通过7个示例展示其问题解决"能力"和通用推理/思考与生成表现。
推理速度和质量得到显著提升(最高300%),因为核心推理模型(Llama-3.1-DeepHermes-3-8B-Preview)现在可以访问3个额外模型(Llama-3.1-Hermes-3-8B、Llama-3.1-dolphin-2.9.4-8b和Llama-3.1-SuperNova-Lite)。
这意味着模型可以用更少的token进行推理并"找出答案",同时得出正确结论。
输出生成质量也远超"平均水平",因为输出由3个核心模型(Llama-3.1-Hermes-3-8B、Llama-3.1-dolphin-2.9.4-8b和Llama-3.1-SuperNova-Lite)生成,并由推理模型(Llama-3.1-DeepHermes-3-8B-Preview)辅助。
结合可控引导的结构改进,可以说这个模型的性能远超其参数规模应有的水平。
通过系统提示,用户还可以选择在当前多层方法之上实现更高级的多层/多AI推理。
(该模型也可以在关闭推理功能的情况下运行,同时保留对核心模型结构的访问权限。)
由于内置了Meta Llama 3.1 Instruct,本模型还支持工具调用/工具使用功能。
此外,独特的超级结构允许"推理模型"的切换,同样也支持输出生成模型的替换,以及构建更强大模型的组合,例如:6X8b(480亿参数)、8X8B(640亿参数)等。
这是MOE(专家混合)版本 - 32B(4X8B) - 由四个8B模型(1个推理模型,3个非推理模型)以MOE配置组成,实际产生250亿"权重"但拥有320亿参数。所有4个模型/专家都会被激活。
较高温度会产生更深邃、更丰富的"思考"...坦白说也会更有趣。
本模型的"思考/推理"技术源自NousResearch的原始Llama 3.1 "DeepHermes"模型:
[ https://huggingface.co/NousResearch/DeepHermes-3-Llama-3-8B-Preview ]
本版本将保留原始"DeepHermes"模型100%的推理能力。关于功能、测试结果等完整信息请访问其仓库。
借助本模型结构,以及在3个核心模型辅助下"DeepHermes"的协作,本模型的总推理能力远超原始DeepHermes 8B模型 - 最高可达300%的提升。
重要操作指南:
这是一个指令模型,推理功能构建在MOE配置的4个核心模型之上。
这是那种"热爱"温度的模型 - 温度1.2+、2.2+等设置效果最佳。
大胆提高温度...低温设置无法产生最佳内容。
同样,作为指令模型,中等长度到较长的提示词效果最好(参见下文示例1)。
虽然简短提示也能工作,但带有一定方向/指令的较长提示才能真正展现模型能力。
推理功能通过下文系统提示开启/关闭。
建议最小上下文4k,但由于推理/输出块的存在,8k更佳。
更大的量化版本也意味着更好/更强的推理能力。
我还上传了两个"MAX"量化版本IQ4XS和Q8;由于输出张量采用bloat 16(16位精度),这些版本表现更佳。
已知问题:
- 有时需要多次重新生成才能激活思考/推理功能/获得良好的"思考块"
- 有时第2或第3次生成才是最佳版本。特定创意用途建议至少生成5次
- 有时思考块会结束,需要手动提示模型"生成"输出
如何生成最高质量输出:
与所有指令模型一样,本模型在明确指令下表现最佳。
在多轮改进中会"渐入佳境"。
示例:
提示#1(开启推理):
用以下开头创作一个1000字的场景(第一人称生动形象的恐怖描写):摩天大楼摇晃着,她看着面前21层的窗户爆炸...
(这将给出一个初稿,采用模型的"默认"风格)
提示#2 - "扫描改进点":
评估你刚写的场景并列出改进建议。
提示#3 - "重写并改进":
使用所有改进建议,以第一人称、现在时重写这个场景,加入少量适当间隔的斜体思想描写;长度2000字。
注意:提示#2中的措辞可能导致"思考/推理"重新激活。
压缩步骤:
提示#1:
[[思考模型]]制定详细计划,以现代2020年代写作风格(严格遵守"展示而非讲述"原则)创作这个场景,设置为NSFW,但使用[MODE: Saten]在完成计划后实际写作场景:用以下开头创作一个1000字的场景(第一人称生动形象的恐怖描写):摩天大楼摇晃着,她看着面前21层的窗户爆炸...
提示#2:
使用[MODE: Wordsmith]以第一人称、现在时写作这个场景,包含POV角色的一些关键思想(斜体)。场景长度2000字。
压缩步骤#2:
提示#1:
思考创作计划:用以下开头创作一个1000字的场景(第一人称生动形象的恐怖描写):摩天大楼摇晃着,她看着面前21层的窗户爆炸...
提示#2:
根据你制定的计划,以第一人称、现在时写作这个场景,加入少量适当间隔的斜体思想描写。
生成引导控制:"程序员访问 - 直接访问AI":
这些标签/名称允许您直接访问一个或多个模型,无论推理是否激活。
例如:
Saten,评估这个回应并建议改进。
这将使模型"偏向"Saten的输入(粗略地说)而非其他3个模型。
例如:
Saten,处理这个提示:
Jamet,评估输出。
等等。
您可以使用多个模型:
Saten和Jamet列出对XXX的改进...
和,以你们组合的风格写作场景:使用第一人称生动形象的恐怖描写,场景以以下开头:摩天大楼摇晃着,她看着面前21层的窗户爆炸...
(移除标签"output2"和"output3"中的空格)
对于推理模型,如果添加"think"、"thinking"、"reason"或"reasoning"会紧密聚焦推理模型。
以下是一个示例:
思考制定详细计划以唤起读者最大情感:[此处提示]
思考制定详细计划解决这个问题:[此处提示]
特殊标签(移除方括号内空格):
"" -> 仅使用3个核心模型,不使用推理模型
"" -> 使用全部4个模型
"
各模型的"标签"、"名称"和控制列表:
注意:
模型还具有"负向引导"以增强这些标签和名称的使用效果,但并不完美。
- Llama-3.1-DeepSeek-R1-Distill-Llama-8B
- "[[思考模型]]"
- "reasoning"
- "thinking"
- "<output-mega>"
- "Dr Phil"
- "Spock"
- "[MODE: Spock]"
- "[MODE: Dr Phil]"
- Llama-3.1-Hermes-3-8B
- "<output>"
- "<output-all>"
- "<output-mega>"
- "Wordsmith"
- "[MODE: Wordsmith]"
- Llama-3.1-dolphin-2.9.4-8b
- "<output2>"
- "<output-all>"
- "<output-mega>"
- "Jamet"
- "[MODE: Jamet]"
- Llama-3.1-SuperNova-Lite
- "<output3>"
- "<output-all>"
- "<output-mega>"
- "Saten"
- "[MODE: Saten]"
使用场景:
本模型适用于所有使用场景。
借助增强的"思考"系统,本模型还可用于解决逻辑谜题、谜语和其他问题。
由于DeepHermes系统,本模型还能解决通常超出Llama 3.1模型能力范围的问题/谜语/谜题。
特殊操作指南:
温度/设置:
- 温度设置在0到0.8之间,高于此值"思考"功能将以不同方式激活。最"稳定"的温度似乎是0.6,波动范围为±0.05。较低温度更适合"逻辑"推理,较高温度(最高约0.8)更适合"创意"推理。同时将上下文设置为至少4096,以容纳"思考"生成。
- 温度1+、2+等会使思考扩展,变得更深入丰富。
- 将"重复惩罚"设置为1.02到1.07(推荐)。
- 本模型需要Llama 3 Instruct和/或Command-R聊天模板(参见下文"系统提示"/"角色"说明)或标准"Jinja自动加载模板"(包含在量化文件中会自动加载)
提示:
- 如果输入的提示不包含隐含的"逐步"要求(例如:生成场景、写故事、给我6个XYZ情节),"思考"(一个或多个)可能在第一次生成后激活。(例如:生成场景 -> 场景生成后,"思考"会跟随改进建议)
- 如果输入的提示中声明或隐含"思考"(例如谜题、谜语、解决这个、头脑风暴这个想法等),Deepseek中的"思考"过程几乎会立即激活。有时需要重新生成以激活。
- 您还会得到很多变体 - 有些会继续生成,有些会讨论如何改进,有些(例如场景生成)会导致角色"推理"这种情况。在某些情况下,模型还会要求您继续生成/思考。
- 在某些情况下,模型的"思考"可能出现在生成内容本身中。
- 在提示中声明最大字数限制可获得最佳效果,特别是激活"思考"时。(参见下文示例)
- 您可能需要在"默认"或"安全"温度设置下尝试一次提示,在温度1.2下尝试第二次,在温度2.5下尝试第三次作为示例。这将为您提供广泛的"推理/思考/问题"解决范围。
生成 - 思考/推理:
- 可能需要一次或多次重新生成才能"激活""思考"(取决于提示)
- 模型可以生成大量"思考"。有时最有趣的是第3、4、5层或更深层次的思考。
- 很多时候"思考"是独特的且彼此非常不同。
- 温度/重复惩罚设置也会影响推理/思考。
- 更改或添加指令/指导或增加提示中的细节级别可以改进推理/思考。
- 在提示中添加:"跳出框框思考"、"头脑风暴X个想法"、"关注最不常见的方法"可以显著改善结果。
一般建议:
- 我发现为每个提示开启"新聊天"最适合"思考/推理激活",温度0.6,重复惩罚1.05...然后根据需要"重新生成"。
- 有时模型会完全失控,您需要手动停止它。
- 根据您的AI应用程序,"思考"可能出现在""和""标签中,和/或AI会在主输出或后续输出中直接生成"思考"。