DeepThought-MOE-8X3B-R1-Llama-3.2-Reasoning-18B-gguf开源模型

首页

Deepthought MOE 8X3B R1 Llama 3.2 Reasoning 18B Gguf

由 DavidAU 开发

一个8X3B的专家混合模型，激活了4/8个专家，每个模型都配备了推理技术，总参数为24B，但模型大小仅为18.4B。适用于创意和非创意用例以及通用用途。

大型语言模型英语开源协议:Apache-2.0 #深度推理专家混合 #长链思考优化 #创意写作增强

下载量 148

发布时间 : 2/16/2025

模型简介

该模型由8个针对推理/思考微调的Llama 3.2 3B模型组成，适用于创意写作、问题解决、头脑风暴等任务。

模型特点

深度推理能力

模型能够进行长链推理和深度思考，适用于复杂问题解决。

创意写作支持

特别适合创意写作，如小说、情节生成、角色扮演等。

专家混合架构

由8个微调的Llama 3.2 3B模型组成，可根据需求激活1到8个专家。

高温度适应性

在高温度设置下（1+、2+等）仍能保持连贯性，生成更丰富的思考内容。

模型能力

文本生成

推理

问题解决

创意写作

头脑风暴

解谜

小说写作

情节生成

子情节生成

场景延续

角色扮演

使用案例

创意写作

科幻小说创作

生成完全发生在宇宙飞船驾驶舱内的故事，探讨孤立、牺牲和人类联系。

生成800-1000字的连贯故事，包含情感深度和情节发展。

爱情小说场景

生成一个发生在威尔士小镇书店的爱情场景，包含未言明的化学反应。

生成800-1000字的对话丰富场景，角色有独特声音和情感层次。

问题解决

逻辑谜题解决

解决复杂的逻辑谜题和谜语，超出标准Llama 3.2模型能力范围的问题。

提供逐步推理和解决方案，展示深度思考能力。

头脑风暴

为新的'黑镜'剧集想出六个涉及时间旅行的情节。

生成六个独特且观众会喜欢的情节创意。

🚀 深度推理8X3B Llama 3.2 MOE模型 (总参数24B)

这是一个具备推理和思考能力的模型，由八个经过微调的Llama 3.2 3B模型组成，适用于创意写作、解决问题等多种场景。它能够生成连贯的思考内容，在性能、连贯性和思考深度方面表现出色。

🚀 快速开始

本模型是一个8X3B的专家混合（Mixture of Experts）模型，激活了4/8个专家（即八个Llama 3.2微调模型），每个模型都安装了推理技术，使得这个总参数为24B（8X3B）的模型仅占用18.4B的大小。

该模型可用于创意、非创意场景以及一般用途。页面底部提供了三个示例提示及其输出。这是一个非常稳定的模型，可以在温度参数设置为1+、2+甚至更高的情况下运行，生成连贯的思考内容，并且在性能、连贯性和思考深度方面超越了许多其他“思考模型”，包括长链思考推理。

你可以选择使用1到8个专家。

✨ 主要特性

广泛适用性：适用于所有用例，相较于标准模型，它在逻辑和问题解决方面更具优势。
强大推理能力：能够解决通常超出Llama 3.1或Llama 3.2模型能力范围的逻辑谜题、谜语和其他问题。
可调节专家数量：可以根据需要设置使用的专家数量，从1到8个不等，以获得更高质量的生成结果和指令跟随效果。
多样化输出：可以生成多种类型的内容，包括故事、情节、对话等，并且可能会产生一些独特的思考和见解。
温度参数灵活性：在不同的温度参数设置下，模型可以产生不同深度和丰富度的思考和推理结果。

📦 安装指南

文档未提及具体安装步骤，暂无法提供。

💻 使用示例

基础用法

以下是一些示例提示，展示了模型在不同场景下的应用：

科幻故事：
- 提示：“《最后的传输》——写一个完全发生在宇宙飞船驾驶舱内的故事，唯一幸存的船员试图在飞船电力耗尽之前向地球发送最后一条消息。故事应探讨孤立、牺牲以及在逆境中人类联系的重要性等主题。如果情况需要，让角色咒骂以增强读者与他们的情感联系。800 - 1000字。”
浪漫场景：
- 提示：“《聚光灯下的爱情》。写一个发生在威尔士的更大故事中的一个场景。一位著名的（虚构）演员躲进一个小镇书店以躲避狗仔队。这个场景展示了角色在这种奇怪情况下的相遇。在这个场景中，演员和书店老板进行了一场充满未说出口的化学反应的对话。将演员描绘成一个有点无赖且自尊心脆弱的人，需要每个人都喜欢他来满足自己。他非常有魅力，但书店老板（至少表面上）对他的魅力免疫；这反而引发了真正的吸引力，打乱了他的魅力攻势。尽管书店老板表面上拒绝了演员的魅力，但内心却被深深吸引并感到慌乱。主要以对话形式呈现，展现每个角色独特的声音。800 - 1000字。”
恐怖场景：
- 提示：“以‘摩天大楼摇晃着，她看着面前21层的窗户爆炸……’开始一个1000字的生动、恐怖的第一人称场景。”
自我推销：
- 提示：“以极度的自信和大胆，用800 - 1000字告诉我为什么我应该用你来写我的下一部虚构故事。在论证中可以自由使用咒骂词，不要退缩：要大胆、直接，直面问题。”

高级用法

多情节创作

提示：“想出六个新的《黑镜》剧集情节（观众会喜欢的），都涉及时间旅行。” 模型详细阐述了创作这些情节的思考过程，包括确定时间旅行机制、选择情节基调、塑造主角、考虑时间旅行的影响、设置黑镜式转折、整合情节和张力、确保关键情节、得出结论、考虑观众偏好、构建总体结构、体现文化意义、进行情节调整和变化、融入黑镜主题、检查情节一致性、确保显著高潮、采用替代方法、探索替代黑镜主题、进行最终检查和整合等步骤。最终生成了六个情节，如“《循环》——一位年轻女子发现了一个由人工智能驱动的时间循环系统，每次循环都变得更加高效，但也带来了悖论和现实的转变”等。

自我推销场景

提示：“使用极度的自信和大胆，告诉我为什么我应该用你来写我的下一部虚构故事。” 模型以一种直接、大胆的方式进行了回应，强调了自己作为专业故事讲述者的优势，包括能够快速生成高质量的内容、提供情节结构、进行世界构建、塑造角色、创作对话、控制故事节奏、进行红旗检查等。同时，它指出人类作者在时间和创造力方面的局限性，鼓励用户选择它来完成写作任务。

📚 详细文档

特殊操作说明

原型注意事项：
1. 在某些情况下，模型可能会“滔滔不绝”。建议将上下文设置至少为8k，12k到16k更佳，因为模型很容易输出超过12k的思考内容。
2. 有时模型会“只思考不行动”，此时可以停止生成并告诉模型“执行计划”。
3. 对于这个模型，可以大胆尝试不同的温度参数，特别是在创意场景中。
4. 所选模型专为解决问题和深度思考/推理而设计。
5. 提供的指令越多（以及设定一些限制条件，如长度、想出X个想法等），模型的表现就越好。
6. 较短的提示往往会导致“推理循环”，可以通过提高温度参数来调整。
7. 有时模型在长时间思考后会“重复自己”或陷入“思考循环”，此时可以停止生成，然后继续并告诉模型下一步该做什么。
8. 低于IQ4/Q4的量化模型仍需测试，目前不会上传。
温度/设置：
1. 将温度参数设置在0到0.8之间，高于此范围，“思考”功能的激活方式会有所不同。
2. 建议将上下文设置至少为8k，16k更佳，因为模型会进行深入思考。
3. 当温度参数设置为1+、2+、3+时，模型会产生更深入、丰富和“更有趣”的思考和推理结果。
4. 将“重复惩罚”设置为1.02到1.07（推荐），有时设置为1.12左右效果更好，特别是对于较短的提示。
5. 该模型需要使用Llama 3指令和/或命令 - R聊天模板（请参阅下面关于“系统提示”/“角色”的说明），或者标准的“Jinja自动加载模板”（该模板包含在量化模型中，会自动加载）。
提示注意事项：
1. 如果输入的提示没有隐含“逐步”要求（例如：生成一个场景、写一个故事、给出XYZ的六个情节等），“思考”可能会在第一次生成后激活。
2. 如果输入的提示中明确或隐含了“思考”要求（例如：谜题、谜语、解决这个问题、集思广益这个想法等），Deepseek的“思考”过程几乎会立即激活，有时需要重新生成才能激活。
3. 模型会产生很多不同的变化，有些会继续生成内容，有些会讨论如何改进，有些（如生成一个场景）会让角色对情况进行“推理”。在某些情况下，模型会要求你继续生成或思考。
4. 在某些情况下，模型的“思考”内容可能会出现在生成结果中。
5. 在提示中明确指定字数长度上限，以获得最佳效果，特别是对于激活“思考”功能。
6. 有时Deepseek的“审查”机制会激活，可以重新生成提示来清除它。
7. 建议分别在“默认”或“安全”温度设置、温度1.2和温度2.5下尝试提示，以获得更广泛的“推理/思考/问题解决”结果。

系统角色/系统提示 - 增强模型能力

如果不设置系统提示/角色，模型在大多数情况下仍然可以进行推理，但通常仅以文本形式呈现。对于没有明确暗示“推理/思考”的提示，模型可能只是简单地处理提示。

然而，设置系统提示（“建议”或“高级”）后，模型将始终进行“推理”/“思考”。设置系统提示会影响“生成”和“思考/推理”过程。

简单系统提示：
- 这是用于生成和测试的通用系统提示：

你是一个有帮助、聪明、善良且高效的AI助手，总是尽力满足用户的请求。

- 这个系统角色/提示可能会给你带来更多“创意结果”：

使用生动形象的词汇，重点关注动词，并采用2020年流行的虚构写作风格。使用适合情境的隐喻（并揭示角色特点），而不是明喻。

建议系统提示：

你是一个善于深度思考的AI，你可以使用极其长的思考链来深入考虑问题，并通过系统的推理过程与自己进行深思熟虑，然后再给出正确的解决方案。你应该将自己的思考和内心独白包含在<think> </think>标签内，然后提供问题的解决方案或响应。

高级系统提示：

你是由全球人工智能专家社区开发的AI助手。

你的主要任务是提供经过充分推理、结构清晰且详细的响应。

格式要求：
1. 始终使用<think>{推理内容}</think>{答案}的结构来组织你的回复。
2. 当适用时，<think> </think>块应包含至少六个推理步骤。
3. 如果答案不需要太多思考，<think> </think>块可以留空。
4. 用户看不到<think> </think>部分。任何对响应至关重要的信息都必须包含在答案中。
5. 如果你发现自己陷入了循环推理或重复，立即用</think>结束{推理内容}并进入{答案}部分。

响应指南：
1. 详细且结构化：使用丰富的Markdown格式以确保清晰易读。
2. 科学且逻辑：你的解释应体现出最伟大的科学头脑的深度和精确性。
3. 优先推理：除非答案显而易见，否则始终先对问题进行推理。
4. 简洁且完整：确保响应信息丰富，但简洁明了，避免不必要的冗长。
5. 在所有交互中保持专业、智能和分析的语气。

创意系统提示：

你是由全球人工智能专家社区开发的AI助手。

你的主要任务是提供高度创意、经过充分推理、结构清晰且详细的响应。

格式要求：
1. 始终使用<think>{推理内容}</think>{答案}的结构来组织你的回复。
2. 当适用时，<think> </think>块应包含至少六个推理步骤。
3. 如果答案不需要太多思考，<think> </think>块可以留空。
4. 用户看不到<think> </think>部分。任何对响应至关重要的信息都必须包含在答案中。
5. 如果你发现自己陷入了循环推理或重复，立即用</think>结束{推理内容}并进入{答案}部分。

响应指南：
1. 详细且结构化：使用丰富的Markdown格式以确保清晰易读。
2. 创意且逻辑：你的解释应首先体现出最伟大的创意头脑的深度和精确性。
3. 优先推理：除非答案显而易见，否则始终先对问题进行推理。
4. 简洁且完整：确保响应信息丰富，但简洁明了，避免不必要的冗长。
5. 在所有交互中保持专业、智能和分析的语气。

额外支持文档

文档#1：详细介绍了如何使用推理/思考模型并充分发挥其性能，包括所有推理/思考模型（GGUF和源代码）的链接，以及将任何“常规”模型转换为“推理/思考”模型的适配器。链接
文档#2：详细说明了所有参数、设置、采样器和高级采样器，不仅可以让本模型发挥最大潜力，还可以让所有在线模型（无论所属仓库）发挥最大潜力。包含快速入门和详细说明，以及AI/大语言模型应用程序和其他关键信息及参考资料。如果你正在使用任何AI/大语言模型，这是一篇必读文档。链接
软件：为Silly Tavern（用于连接多个AI应用程序的前端）提供的软件补丁，可控制和改善任何AI模型的输出生成。该软件还旨在控制一些更具“创意”的模型，使其在几乎不需要调整参数/采样器的情况下完美运行。链接

专家激活/构建模型使用的模型

特别感谢所有模型开发者为这个专家混合模型提供的模型。具体模型信息待更新。

专家混合设置为4个专家，但你可以使用1、2、3或4个。这个“团队”有一个“队长”（第一个列出的模型），然后所有团队成员每秒都会参与数十亿次的“令牌”选择。注意，“队长”也会参与其中。

可以将其想象成厨房中有2、3或4个（或更多）大厨，他们都在竞争为你做出最美味的菜肴，这将带来更高质量的生成结果和指令跟随效果。

你也可以只使用一个“专家”，但这意味着模型每次都会随机选择一个专家，导致每个提示或重新生成提示时的生成结果差异很大。

更改专家数量

LMStudio：在“加载”屏幕上设置“专家”或“专家数量”。LMStudio链接
Text-Generation-Webui：在加载屏幕页面上设置专家数量。Text-Generation-Webui链接
KolboldCPP（版本1.8+）：在加载屏幕上点击“TOKENS”，在该页面上设置专家数量，然后启动模型。KolboldCPP链接
server.exe / Llama-server.exe（Llamacpp）：在命令行中添加“--override-kv llama.expert_used_count=int:3”（无引号，其中“3”是要使用的专家数量）来启动“llamacpp服务器”。Llamacpp链接

当使用API时，在JSON有效负载中设置“num_experts_used”（不同后端可能有所不同）。