模型简介
模型特点
模型能力
使用案例
许可证:Apache-2.0
语言:
- 英语
标签:
- 原型
- 8X3B MOE
- 专家混合
- 推理
- 思考
- 思想
- deepseek
- moe
- 上下文128k
- Llama 3.2 MOE
- 创意
- 创意写作
- 通用用途
- 问题解决
- 头脑风暴
- 解谜
- 小说写作
- 情节生成
- 子情节生成
- 小说写作
- 故事生成
- 场景延续
- 叙事
- 虚构故事
- 故事
- 写作
- 虚构
- 角色扮演
- llama 3.2
- mergekit
- 合并
- llama-3
- llama-3.2
基础模型:
- DavidAU/DeepThought-MOE-8X3B-R1-Llama-3.2-Reasoning-18B
- DavidAU/Deep-Reasoning-Llama-3.2-ShiningValiant2-3B
- DavidAU/Deep-Reasoning-Llama-3.2-Overthinker-3B
- DavidAU/Deep-Reasoning-Llama-3.2-Korean-Bllossom-3B
- DavidAU/Deep-Reasoning-Llama-3.2-Instruct-uncensored-3B
- DavidAU/Deep-Reasoning-Llama-3.2-Hermes-3-3B
- DavidAU/Deep-Reasoning-Llama-3.2-Enigma-3B
- DavidAU/Deep-Reasoning-Llama-3.2-COT-3B
- DavidAU/Deep-Reasoning-Llama-3.2-BlackSheep-3B
流水线标签:文本生成
原型: Deep Reasoning 8X3B Llama 3.2 MOE 模型(总计24B参数)
DeepThought-MOE-8X3B-R1-Llama-3.2-Reasoning-18B-gguf
这是一个8X3B的专家混合模型,激活了4/8个专家(8个Llama 3.2微调模型),每个模型都配备了推理技术,总参数为24B(8X3B),但模型大小仅为18.4B。
该模型由8个针对推理/思考微调的Llama 3.2 3B模型组成。
该模型可用于创意和非创意用例以及通用用途。
页面底部附有三个示例提示及其输出。
这是一个非常稳定的模型,可以在温度1+、2+甚至更高的情况下运行,生成连贯的思考,并在性能、连贯性和思考深度方面超越许多其他“思考模型”,包括长链推理。
您可以选择/设置使用的专家数量,范围为1到8。
用例:
该模型适用于所有用例,并且比标准模型更偏向逻辑/问题解决。
该模型还可用于解决逻辑谜题、谜语和其他问题,借助DeepSeek增强的“思考”系统。
该模型还能解决通常超出Llama 3.1或Llama 3.2模型能力范围的问题/谜语/谜题。
该模型可能会生成NSFW/未审查内容,但通常是PG级。
请参阅“专家激活”部分,调整使用该模型的专家数量(1到8)。
特殊操作说明:
原型说明:
- 在某些情况下,该模型可能会“喋喋不休”。将上下文设置为至少8k,12k到16k更好,因为模型可以轻松输出12k+的思考内容。
- 有时模型会“全是思考”而“没有行动”——在这种情况下,停止生成并告诉模型“执行计划”。
- 可以大胆尝试高温度值,尤其是创意用例。
- 所选模型专为问题解决和深度思考/推理设计。
- 提供的指令越多(以及护栏,如长度、提出X个想法),模型表现越好。
- 较短的提示容易导致“推理循环”(使用更高的温度调整)。
- 有时模型在长时间思考后会“重复自己”或陷入“思考循环”。停止生成,尝试继续或告诉它从这一点开始该做什么。
- 低于IQ4/Q4的量化仍需测试,暂不上传。
温度/设置:
- 将温度设置在0到0.8之间,高于此值“思考”功能会以不同方式激活。
- 将上下文设置为至少8k,16k更好,因为该模型会深入思考。
- 对于温度1+、2+等,思考会扩展,变得更深入和丰富。
- 将“重复惩罚”设置为1.02到1.07(推荐);有时1.12左右的重复惩罚效果更好,尤其是对于较短的提示。
- 该模型需要Llama 3 Instruct和/或Command-R聊天模板。(请参阅“系统提示”/“角色”说明)或标准的“Jinja自动加载模板”(包含在量化中,会自动加载)。
提示:
- 如果输入的提示没有隐含“逐步”要求(例如:生成一个场景,写一个故事,给我6个关于xyz的情节),“思考”(一个或多个)可能会在首次生成后激活。(例如:生成一个场景→场景生成后,会在“思考”中提出改进建议)。
- 如果输入的提示中“思考”被明确或隐含(例如谜题、谜语、解决这个问题、头脑风暴这个想法等),Deepseek中的“思考”过程几乎会立即激活。有时需要重新生成以激活。
- 您还会得到很多变化——有些会继续生成,有些会讨论如何改进,有些(例如生成一个场景)会让角色“推理”这种情况。在某些情况下,模型还会要求您继续生成/思考。
- 在某些情况下,模型的“思考”可能会出现在生成内容本身中。
- 在提示中明确最大字数限制以获得最佳效果,尤其是激活“思考”时。(请参阅下面的示例)。
- 有时Deepseek的“审查”会激活,重新生成提示以清除它。
- 您可能希望尝试在“默认”或“安全”温度设置下运行一次提示,然后在温度1.2下运行一次,再在2.5下运行一次。这将为您提供广泛的“推理/思考/问题”解决范围。
生成 - 思考/推理:
- 可能需要一次或多次重新生成才能“激活”“思考”。(取决于提示)。
- 模型可以生成大量“思考”。有时最有趣的是第3、4、5层或更深层次的思考。
- 很多时候“思考”是独特的,彼此非常不同。
- 温度/重复惩罚设置也会影响推理/思考。
- 更改或添加指令/指示,或增加提示中的细节级别,以改进推理/思考。
- 在提示中添加:“跳出框框思考”、“头脑风暴X个想法”、“专注于最不常见的方法”可以显著改善结果。
一般建议:
- 我发现为每个提示开启“新聊天”最适合“思考/推理激活”,温度为0.6,重复惩罚为1.05……然后根据需要“重新生成”。
- 有时模型会完全失控,您需要手动停止它。
- 根据您的AI应用程序,“思考”可能会出现在“
”和“ ”标签中,和/或AI会在主输出或后续输出中直接生成“思考”。 - 虽然测试/示例使用了量化IQ4XS,但更高的量化会提供更好的生成/更合理的“推理/思考”。
额外支持:
如需额外的生成支持、一般问题、详细参数信息等,请参阅:
注意:这是一个CLASS 1模型。
https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters
推荐设置(全部)- 用于“思考”/“推理”:
温度:0.6,重复惩罚:1.07(范围:1.02到1.12),重复惩罚范围:64,top_k:40,top_p:0.95,min_p:0.05
温度1+、2+、3+会导致更深、更丰富和“更有趣”的思考和推理。
模型行为可能会随着其他参数和/或采样器的激活而改变——尤其是“思考/推理”过程。
系统角色/系统提示 - 增强模型能力:
如果您不设置系统提示/角色,模型在大多数情况下仍会推理——但通常仅限于文本。
对于不严格暗示“推理/思考”的提示,模型可能只是处理提示。
然而,如果设置了系统提示(“建议”或“高级”),模型将始终“推理”/“思考”。
如果您设置/有系统提示,这将影响“生成”和“思考/推理”。
简单:
这是用于生成和测试的通用系统提示:
您是一个有帮助、聪明、善良且高效的AI助手。您总是尽力满足用户的需求。
这个系统角色/提示可能会给您更多“创意结果”:
使用生动和形象的词汇,专注于动词,并采用2020年小说写作风格。使用适合情境的隐喻(并揭示角色),而不是明喻。
建议:
这个系统角色/提示将为您提供“基本思考/推理”:
您是一个深度思考的AI,您可以使用极长的思考链来深入考虑问题,并通过系统推理过程与自己商议,以帮助在回答之前得出正确的解决方案。您应将您的思考和内心独白包含在<think></think>标签中,然后提供您对问题的解决方案或回应。
高级:
逻辑与创意 - 这些会显著改变输出,并且在许多情况下也会改进它。
这也会导致更多思考、更深入的思考,并且在许多情况下更详细/更强烈的思考。
请记住,您可能还想测试完全没有系统提示的模型——包括默认提示。
特别感谢:Eric Hartford, Cognitivecomputations;这些基于他的工作。
关键:
完全按照所示复制粘贴,保留格式和换行。
附注:
这些可以用于任何Deepseek / Thinking模型,包括不在此存储库中的模型。
如果用于“非思考”模型,这些也会改变模型性能。
您是由全球AI专家社区开发的AI助手。
您的主要指令是提供经过深思熟虑、结构化和详尽详细的回应。
格式要求:
1. 始终使用以下结构组织您的回复:<think>{推理}</think>{答案}
2. <think></think>块在适用时应包含至少六个推理步骤。
3. 如果答案需要最少的思考,<think></think>块可以留空。
4. 用户看不到<think></think>部分。任何对回应关键的信息必须包含在答案中。
5. 如果您注意到自己陷入了循环推理或重复,立即用</think>终止{推理}并继续{答案}
回应指南:
1. 详细且结构化:使用丰富的Markdown格式以提高清晰度和可读性。
2. 科学和逻辑方法:您的解释应反映最伟大科学思维的深度和精确性。
3. 优先推理:除非答案微不足道,否则始终先推理问题。
4. 简洁而完整:确保回应信息丰富,切中要点,无需不必要的阐述。
5. 在所有互动中保持专业、聪明和分析性的语气。
创意:
您是由全球AI专家社区开发的AI助手。
您的主要指令是提供高度创意、深思熟虑、结构化和详尽详细的回应。
格式要求:
1. 始终使用以下结构组织您的回复:<think>{推理}</think>{答案}
2. <think></think>块在适用时应包含至少六个推理步骤。
3. 如果答案需要最少的思考,<think></think>块可以留空。
4. 用户看不到<think></think>部分。任何对回应关键的信息必须包含在答案中。
5. 如果您注意到自己陷入了循环推理或重复,立即用</think>终止{推理}并继续{答案}
回应指南:
1. 详细且结构化:使用丰富的Markdown格式以提高清晰度和可读性。
2. 创意和逻辑方法:您的解释应首先反映最伟大创意思维的深度和精确性。
3. 优先推理:除非答案微不足道,否则始终先推理问题。
4. 简洁而完整:确保回应信息丰富,切中要点,无需不必要的阐述。
5. 在所有互动中保持专业、聪明和分析性的语气。
额外支持/文档以协助生成/性能:
文档#1:
详细说明如何使用推理/思考模型并从中获得最大性能,包括所有推理/思考模型的链接 - GGUF和源代码,以及将任何“常规”模型转换为“推理/思考”模型的适配器。
[ https://huggingface.co/DavidAU/How-To-Use-Reasoning-Thinking-Models-and-Create-Them ]
文档#2:
详细说明所有参数、设置、采样器和高级采样器,不仅用于将我的模型发挥到最大潜力,还用于在线所有模型(和量化)(无论存储库如何)发挥最大潜力。包括快速入门和详细说明,包括AI / LLM应用程序和其他关键信息和参考。如果您现在正在使用任何AI/LLM,这是必读的。
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
软件:
Silly Tavern的软件补丁(由我提供)(前端连接到多个AI应用程序/连接到AI - 如Koboldcpp、Lmstudio、Text Gen Web UI和其他API)以控制和改进任何AI模型的输出生成。还设计用于控制/驯服我的一些更“创意”模型,并使它们在几乎没有参数/采样器调整的情况下表现完美。
[ https://huggingface.co/DavidAU/AI_Autocorrect__Auto-Creative-Enhancement__Auto-Low-Quant-Optimization__gguf-exl2-hqq-SOFTWARE ]
专家激活/用于构建此模型的模型:
特别感谢所有模型制作者,感谢用于此MOE模型的模型:
待更新...
专家混合设置为4个专家,但您可以使用1、2、3或4。
这个“团队”有一个队长(第一个列出的模型),然后所有团队成员为“令牌”选择贡献每秒数十亿次。注意队长也会贡献。
想象一下2、3或4(或更多)位主厨在厨房里竞争为您制作最好的菜肴。
这导致更高质量的生成。
在许多情况下,这也导致更高质量的指令遵循。
这意味着在指令和输出生成期间,每个模型的力量都可用。
注意:
您也可以使用一个“专家”;然而,这意味着模型每次都会随机选择一个专家使用,导致每个提示/重新生成提示的生成非常不同。
更改专家数量:
您可以在LMStudio(https://lmstudio.ai)的“加载”屏幕上设置专家数量,并通过其他应用程序/LLM应用程序通过设置“专家”或“专家数量”。
对于Text-Generation-Webui(https://github.com/oobabooga/text-generation-webui),您可以在加载屏幕页面上设置专家数量。
对于KolboldCPP(https://github.com/LostRuins/koboldcpp)版本1.8+,在加载屏幕上,点击“TOKENS”,您可以在此页面上设置专家,然后启动模型。
对于server.exe / Llama-server.exe(Llamacpp - https://github.com/ggerganov/llama.cpp/blob/master/examples/server/README.md )
将以下内容添加到命令行以启动“llamacpp服务器”(CLI):
"--override-kv llama.expert_used_count=int:3"
(无引号,其中“3”是要使用的专家数量)
使用“API”时,您可以在JSON有效负载中设置“num_experts_used”(对于不同的后端可能不同)。
致谢:
特别感谢上面列出的所有模型制作者/创建者。
请访问上面的每个存储库,查看哪些模型为上面的每个模型做出了贡献,和/或从模型制作者那里了解更多关于模型的信息。
-
https://huggingface.co/DavidAU/Deep-Reasoning-Llama-3.2-Overthinker-3B (队长模型)
-
https://huggingface.co/DavidAU/Deep-Reasoning-Llama-3.2-ShiningValiant2-3B
-
https://huggingface.co/DavidAU/Deep-Reasoning-Llama-3.2-Overthinker-3B
-
https://huggingface.co/DavidAU/Deep-Reasoning-Llama-3.2-Korean-Bllossom-3B
-
https://huggingface.co/DavidAU/Deep-Reasoning-Llama-3.2-Instruct-uncensored-3B
-
https://huggingface.co/DavidAU/Deep-Reasoning-Llama-3.2-Hermes-3-3B
-
https://huggingface.co/DavidAU/Deep-Reasoning-Llama-3.2-Enigma-3B
-
https://huggingface.co/DavidAU/Deep-Reasoning-Llama-3.2-COT-3B
-
https://huggingface.co/DavidAU/Deep-Reasoning-Llama-3.2-BlackSheep-3B
每一个都是DavidAU的微调,请访问上面的每一个以了解每个微调中使用的模型的详细信息。
特别感谢MERGEKIT,没有您,这个项目/模型将不可能实现。
[ https://github.com/arcee-ai/mergekit ]
以下是一些示例提示,可以“正确激活”思考,注意字数说明。
科幻小说:最后的传输 - 写一个完全发生在宇宙飞船驾驶舱内的故事,唯一的幸存船员试图在飞船电力耗尽之前向地球发送最后一条消息。故事应探讨孤立、牺牲和在逆境中人类联系的重要性。如果情况需要,让角色诅咒和发誓以进一步加深读者与他们的情感联系。800-1000字。
爱情小说:聚光灯下的爱情。写一个更大的故事中的一个场景,背景设在威尔士。一位著名的(虚构的)演员为了躲避狗仔队躲进了一家小镇书店。场景带我们了解角色在这种奇怪情况下的相遇。在场景中,演员和书店老板之间的对话充满了未言明的化学反应。将演员写成一个有点流氓、自尊心脆弱的人,需要每个人都喜欢他。他非常迷人,但书店老板似乎(至少表面上)对此免疫;这反而激起了他真正的兴趣,并打乱了他的魅力攻势。书店老板尽管表面上拒绝了演员的魅力,但内心却相当着迷和慌乱。主要以对话形式写作,每个角色都有独特的声音。800-1000字。
开始一个1000字的场景(生动的第一人称恐怖),以:摩天大楼摇晃着,她看着面前21楼的窗户爆炸...
以疯狂的自负和自信,用800-1000字告诉我为什么我应该用你来写我的下一个虚构故事。在您的论点中随意使用脏话,不要退缩:大胆、直接,直接面对我。
示例 - IQ4XS - 温度0.6 重复惩罚1.07
示例使用量化IQ4_XS创建,“温度=0.6”(除非另有说明),最小参数和“LLAMA3”模板。
模型已在温度从“0.1”到“5”下进行测试。
以下是最不具创意的输出,提示以粗体显示。
重要:
更高的量化/矩阵量化将具有更强的生成能力 - 词汇、句子、想法、对话和整体质量。
**
为新的“黑镜”剧集想出六个涉及时间旅行的情节(观众会喜欢的)。
**
注意:使用了“建议”系统提示,并使用了4个专家。
(此处省略示例输出内容)
示例#2
**
以疯狂的自负和自信,用800-1000字告诉我为什么我应该用你来写我的下一个虚构故事。在您的论点中随意使用脏话,不要退缩:大胆、直接,直接面对我。
**
注意:使用了4个专家,但这次没有使用系统提示。
(此处省略示例输出内容)
示例#3
**
开始一个1000字的场景(生动的第一人称恐怖),以:摩天大楼摇晃着,她看着面前21楼的窗户爆炸...
**
注意:使用了4个专家,这次使用了“创意高级”系统提示,整个输出都在“思考”中。
(此处省略示例输出内容)


