language:
- 英语
- 法语
- 德语
- 西班牙语
- 葡萄牙语
- 意大利语
- 日语
- 韩语
- 俄语
- 中文
- 阿拉伯语
- 波斯语
- 印尼语
- 马来语
- 尼泊尔语
- 波兰语
- 罗马尼亚语
- 塞尔维亚语
- 瑞典语
- 土耳其语
- 乌克兰语
- 越南语
- 印地语
- 孟加拉语
license: apache-2.0
tags:
- 全场景适用
- 创意
- 创意写作
- 全题材
- 工具调用
- 工具使用
- 问题解决
- 深度思考
- 推理
- 深度推理
- 故事
- 写作
- 小说
- 角色扮演
- bfloat16
- 角色扮演
- sillytavern
- backyard
- llama 3.1
- 上下文128k
- mergekit
- 合并
- 混合专家
- 专家混合
pipeline_tag: 文本生成
Llama3.1-MOE-4X8B-Gated-IQ-Multi-Tier-COGITO-Deep-Reasoning-32B-GGUF
重要提示:本模型具备来自Deepcogito(cogito-v1-preview-llama-8B)的可开关/调节的推理能力,需要通过提供的系统提示来激活推理/思考功能,随后模型内部结构会利用另外3个非推理核心模型将推理能力增强至300%。请参阅下文操作指南以获得最佳性能。
上下文长度:128k。
要求:使用Llama 3 Instruct模板。
"Gated-IQ-Multi-Tier-Cogito-Deep-Reasoning"是一个可在所有温度/设置下运行的通用推理模型,适用于所有使用场景。
该模型的独特之处在于其内部结构允许在"推理"阶段同时运行全部4个模型,其中推理模型在此过程中占据主导地位,随后在输出生成阶段切换模式。
通过额外的内部机制,用户可以直接通过提示词、名称和关键词控制一个或多个模型,使其成为独特而强大的工具。
下方展示了4个示例,分别展示问题解决"能力"与通用推理/思考及生成功能。
推理速度和质量得到显著提升(最高300%),因为核心推理模型(cogito-v1-preview-llama-8B)现在可以调用另外3个模型(Llama-3.1-Hermes-3-8B、Llama-3.1-dolphin-2.9.4-8b和Llama-3.1-SuperNova-Lite)。
这意味着模型可以用更少的token进行推理并"解决问题",同时得出正确结论。
输出生成质量也远超"平均水平",因为输出由3个核心模型(Llama-3.1-Hermes-3-8B、Llama-3.1-dolphin-2.9.4-8b和Llama-3.1-SuperNova-Lite)生成,推理模型(cogito-v1-preview-llama-8B)提供辅助。
结合可控引导的结构改进,使该模型表现远超其参数规模。
通过系统提示,用户还可以实现超越当前多层方法的多层级/多AI推理。
(该模型也可关闭推理功能,仅使用核心结构/系统。)
由于内置Meta Llama 3.1 Instruct,该模型还支持工具调用/使用功能。
此外,独特的超级结构允许"推理模型"的切换,同样支持/输出生成模型也可替换,从而构建更强大的模型,例如:6X8b(480亿参数)、8X8B(640亿参数)等。
这是MOE版本 - 32B(4X8B)- 包含4个8B模型(1个推理模型,3个非推理模型)的混合专家配置,实际形成250亿"权重"模型,但拥有320亿参数。所有4个模型/专家均被激活。
较高温度会产生更深邃、更丰富的"思考"...坦白说也更有趣。
本模型的"思考/推理"技术来自DeepCogito的原始Llama 3.1 "Cogito-V1"模型:
[ https://huggingface.co/deepcogito/cogito-v1-preview-llama-8B ]
此版本将保留原始推理模型的所有功能和特性,约100%的原始推理能力。请访问其仓库获取所有功能、测试结果等信息。
借助本模型结构,以及3个核心模型与"Cogito 8B"的协作,该模型的总推理能力远超原始8B推理模型 - 最高提升300%。
重要操作指南:
这是一个指令模型,推理功能以MOE配置集成在4个核心模型上。
这类模型偏好较高温度 - 温度1.2+、2.2+等。
坚持使用...较低温度无法产生最佳内容。
同样,作为指令模型,中等至长提示效果最佳(参见下方示例#1)。
虽然短提示也可工作,但带有一定方向/指令的长提示才能真正展示模型能力。
通过下方系统提示开启/关闭推理功能。
建议最小上下文4k,但由于推理/输出块,8k更佳。
更大的量化也意味着更好/更强的推理。
我还上传了两个"MAX"量化版本IQ4XS和Q8;由于输出张量以bloat 16(16位精度)为主,这些版本表现更佳。
已知问题:
- 有时需要重新生成以激活思考/推理功能/获得良好的"思考块"。
- 有时第2或第3次生成是最佳版本。建议特定创意用途至少生成5次。
- 有时思考块会结束,需要手动提示模型"生成"输出。
如何生成最高质量输出:
与所有指令模型一样,该模型在指令下表现最佳。
它也在多轮改进中"展现自我"。
示例:
提示#1(开启推理):
以"摩天大楼摇晃着,她看着面前21层的窗户爆炸..."开头,创作一个1000字的场景(生动的第一人称恐怖描写)
(这将给出一个初稿,采用"默认"模型风格)
提示#2 - "扫描改进"
评估你刚写的场景并列出改进点。
提示#3 - "重写并改进"
使用所有改进点,以第一人称、现在时和少量适当间隔的斜体思想重写场景;长度2000字。
注意:提示#2的措辞可能导致"思考/推理"重新激活。
压缩步骤:
提示#1:
[[思考模型]]制定详细计划,以现代2020写作风格(严格遵守"展示而非讲述")创作这个场景,使其包含NSFW内容,但使用[MODE: Saten]在完成计划后实际写作场景:以"摩天大楼摇晃着,她看着面前21层的窗户爆炸..."开头,创作一个1000字的场景(生动的第一人称恐怖描写)
提示#2:
使用[MODE: Wordsmith]以第一人称、现在时写作场景,并包含POV角色的几个关键斜体思想。场景长度2000字。
压缩步骤#2:
提示#1:
思考创作计划:以"摩天大楼摇晃着,她看着面前21层的窗户爆炸..."开头,创作一个1000字的场景(生动的第一人称恐怖描写)
提示#2:
根据你制定的计划,以第一人称、现在时和少量适当间隔的斜体思想写作场景。
生成引导控制:"程序员访问 - 直接访问AI":
这些标签/名称允许您直接访问一个或多个模型,无论推理是否激活。
例如:
Saten,评估响应并建议改进。
这会使模型"偏向"Saten的输入(粗略地说)而非其他3个模型。
例如:
Saten,处理这个提示:
Jamet,评估输出。
等等。
您可以使用多个模型:
Saten和Jamet列出对XXX的改进...
和,以你们结合的风格写作场景:使用生动的第一人称恐怖描写,场景以"摩天大楼摇晃着,她看着面前21层的窗户爆炸..."开头
(移除"标签"output2和output3括号间的空格)
对于推理模型,如果添加"think"、"thinking"、"reason"或"reasoning",这将严格聚焦推理模型。
以下是一个示例:
思考一个详细计划以唤起读者的最大情感:[提示内容]
思考一个详细计划解决这个问题:[提示内容]
特殊标签(移除括号间的空格):
"" -> 仅使用3个核心模型,不使用推理模型。
"" -> 使用全部4个模型。
"
每个模型的"标签"、"名称"和控制列表。
注意:
模型还具有"负向引导"以增强这些标签和名称的使用,但并不完美。
- Cogito-v1-preview-llama-8B
- "[[思考模型]]"
- "reasoning"
- "thinking"
- "<output-mega>"
- "Dr Phil"
- "Spock"
- "[MODE: Spock]"
- "[MODE: Dr Phil]"
- Llama-3.1-Hermes-3-8B
- "<output>"
- "<output-all>"
- "<output-mega>"
- "Wordsmith"
- "[MODE: Wordsmith]"
- Llama-3.1-dolphin-2.9.4-8b
- "<output2>"
- "<output-all>"
- "<output-mega>"
- "Jamet"
- "[MODE: Jamet]"
- Llama-3.1-SuperNova-Lite
- "<output3>"
- "<output-all>"
- "<output-mega>"
- "Saten"
- "[MODE: Saten]"
使用场景:
该模型适用于所有使用场景。
该模型还可用于解决逻辑谜题、谜语和其他问题,借助增强的"思考"系统。
由于DeepHermes系统,该模型还能解决通常超出Llama 3.1模型能力的问题/谜语/谜题。
特殊操作指南:
温度/设置:
- 温度设置在0到0.8之间,高于此值"思考"功能将以不同方式激活。最"稳定"的温度似乎是0.6,波动±0.05。较低温度更适合"逻辑"推理,较高温度(最高约0.8)更适合"创意"推理。同时将上下文设置为至少4096,以容纳"思考"生成。
- 温度1+、2+等会使"思考"扩展,变得更深入和丰富。
- 将"重复惩罚"设置为1.02至1.07(推荐)。
- 该模型需要Llama 3 Instruct和/或Command-R聊天模板。(参见下方"系统提示"/"角色"说明)或标准"Jinja自动加载模板"(包含在量化中并将自动加载)
提示:
- 如果输入的提示不包含隐含的"逐步"要求(例如:生成场景、写故事、给我6个XYZ情节),"思考"(一个或多个)可能在第一次生成后激活。(例如:生成场景 -> 场景生成后,"思考"中会提供改进建议)
- 如果输入的提示中声明或隐含"思考"(例如谜题、谜语、解决这个问题、头脑风暴这个想法等),Deepseek中的"思考"过程几乎会立即激活。有时需要重新生成以激活。
- 您还会得到很多变体 - 有些会继续生成,有些会讨论如何改进,有些(例如场景生成)会使角色"推理"这种情况。在某些情况下,模型还会要求您继续生成/思考。
- 在某些情况下,模型的"思考"可能出现在生成本身中。
- 在提示中说明最大字数限制以获得最佳效果,特别是激活"思考"时。(参见下方示例)
- 您可能需要在"默认"或"安全"温度设置、温度1.2和温度2.5下各尝试一次提示。这将为您提供广泛的"推理/思考/问题"解决范围。
生成 - 思考/推理:
- 可能需要一次或多次重新生成以激活"思考"。(取决于提示)
- 模型可以生成大量"思考"。有时最有趣的是第3、4、5层或更深层次。
- 很多时候"思考"是独特的且彼此非常不同。
- 温度/重复惩罚设置也会影响推理/思考。
- 更改或添加指令/指示或增加提示中的细节级别以改进推理/思考。
- 在提示中添加:"跳出框框思考"、"头脑风暴X个想法"、"关注最不常见的方法"可以显著改善结果。
一般建议:
- 我发现为每个提示开启"新聊天"最适合"思考/推理激活",温度0.6,重复惩罚1.05...然后根据需要"重新生成"。
- 有时模型会完全失控,您需要手动停止它。
- 根据您的AI应用,"思考"可能出现在""和""标签中,和/或AI会在主输出或后续输出中直接生成"思考"。
- 虽然测试/示例使用了q4KM量化,但更高的量化将提供更好的生成/更合理的"推理/思考"。
额外支持:
有关额外的生成支持、一般问题、详细参数信息等,请参阅:
注意:这是一个CLASS 1模型。
https://huggingface.co/DavidAU