🚀 深度推理8X3B Llama 3.2 MOE模型 (总参数24B)
这是一个具备推理和思考能力的模型,由八个经过微调的Llama 3.2 3B模型组成,适用于创意写作、解决问题等多种场景。它能够生成连贯的思考内容,在性能、连贯性和思考深度方面表现出色。
🚀 快速开始
本模型是一个8X3B的专家混合(Mixture of Experts)模型,激活了4/8个专家(即八个Llama 3.2微调模型),每个模型都安装了推理技术,使得这个总参数为24B(8X3B)的模型仅占用18.4B的大小。
该模型可用于创意、非创意场景以及一般用途。页面底部提供了三个示例提示及其输出。这是一个非常稳定的模型,可以在温度参数设置为1+、2+甚至更高的情况下运行,生成连贯的思考内容,并且在性能、连贯性和思考深度方面超越了许多其他“思考模型”,包括长链思考推理。
你可以选择使用1到8个专家。
✨ 主要特性
- 广泛适用性:适用于所有用例,相较于标准模型,它在逻辑和问题解决方面更具优势。
- 强大推理能力:能够解决通常超出Llama 3.1或Llama 3.2模型能力范围的逻辑谜题、谜语和其他问题。
- 可调节专家数量:可以根据需要设置使用的专家数量,从1到8个不等,以获得更高质量的生成结果和指令跟随效果。
- 多样化输出:可以生成多种类型的内容,包括故事、情节、对话等,并且可能会产生一些独特的思考和见解。
- 温度参数灵活性:在不同的温度参数设置下,模型可以产生不同深度和丰富度的思考和推理结果。
📦 安装指南
文档未提及具体安装步骤,暂无法提供。
💻 使用示例
基础用法
以下是一些示例提示,展示了模型在不同场景下的应用:
- 科幻故事:
- 提示:“《最后的传输》——写一个完全发生在宇宙飞船驾驶舱内的故事,唯一幸存的船员试图在飞船电力耗尽之前向地球发送最后一条消息。故事应探讨孤立、牺牲以及在逆境中人类联系的重要性等主题。如果情况需要,让角色咒骂以增强读者与他们的情感联系。800 - 1000字。”
- 浪漫场景:
- 提示:“《聚光灯下的爱情》。写一个发生在威尔士的更大故事中的一个场景。一位著名的(虚构)演员躲进一个小镇书店以躲避狗仔队。这个场景展示了角色在这种奇怪情况下的相遇。在这个场景中,演员和书店老板进行了一场充满未说出口的化学反应的对话。将演员描绘成一个有点无赖且自尊心脆弱的人,需要每个人都喜欢他来满足自己。他非常有魅力,但书店老板(至少表面上)对他的魅力免疫;这反而引发了真正的吸引力,打乱了他的魅力攻势。尽管书店老板表面上拒绝了演员的魅力,但内心却被深深吸引并感到慌乱。主要以对话形式呈现,展现每个角色独特的声音。800 - 1000字。”
- 恐怖场景:
- 提示:“以‘摩天大楼摇晃着,她看着面前21层的窗户爆炸……’开始一个1000字的生动、恐怖的第一人称场景。”
- 自我推销:
- 提示:“以极度的自信和大胆,用800 - 1000字告诉我为什么我应该用你来写我的下一部虚构故事。在论证中可以自由使用咒骂词,不要退缩:要大胆、直接,直面问题。”
高级用法
多情节创作
- 提示:“想出六个新的《黑镜》剧集情节(观众会喜欢的),都涉及时间旅行。”
模型详细阐述了创作这些情节的思考过程,包括确定时间旅行机制、选择情节基调、塑造主角、考虑时间旅行的影响、设置黑镜式转折、整合情节和张力、确保关键情节、得出结论、考虑观众偏好、构建总体结构、体现文化意义、进行情节调整和变化、融入黑镜主题、检查情节一致性、确保显著高潮、采用替代方法、探索替代黑镜主题、进行最终检查和整合等步骤。最终生成了六个情节,如“《循环》——一位年轻女子发现了一个由人工智能驱动的时间循环系统,每次循环都变得更加高效,但也带来了悖论和现实的转变”等。
自我推销场景
- 提示:“使用极度的自信和大胆,告诉我为什么我应该用你来写我的下一部虚构故事。”
模型以一种直接、大胆的方式进行了回应,强调了自己作为专业故事讲述者的优势,包括能够快速生成高质量的内容、提供情节结构、进行世界构建、塑造角色、创作对话、控制故事节奏、进行红旗检查等。同时,它指出人类作者在时间和创造力方面的局限性,鼓励用户选择它来完成写作任务。
📚 详细文档
特殊操作说明
-
原型注意事项:
- 在某些情况下,模型可能会“滔滔不绝”。建议将上下文设置至少为8k,12k到16k更佳,因为模型很容易输出超过12k的思考内容。
- 有时模型会“只思考不行动”,此时可以停止生成并告诉模型“执行计划”。
- 对于这个模型,可以大胆尝试不同的温度参数,特别是在创意场景中。
- 所选模型专为解决问题和深度思考/推理而设计。
- 提供的指令越多(以及设定一些限制条件,如长度、想出X个想法等),模型的表现就越好。
- 较短的提示往往会导致“推理循环”,可以通过提高温度参数来调整。
- 有时模型在长时间思考后会“重复自己”或陷入“思考循环”,此时可以停止生成,然后继续并告诉模型下一步该做什么。
- 低于IQ4/Q4的量化模型仍需测试,目前不会上传。
-
温度/设置:
- 将温度参数设置在0到0.8之间,高于此范围,“思考”功能的激活方式会有所不同。
- 建议将上下文设置至少为8k,16k更佳,因为模型会进行深入思考。
- 当温度参数设置为1+、2+、3+时,模型会产生更深入、丰富和“更有趣”的思考和推理结果。
- 将“重复惩罚”设置为1.02到1.07(推荐),有时设置为1.12左右效果更好,特别是对于较短的提示。
- 该模型需要使用Llama 3指令和/或命令 - R聊天模板(请参阅下面关于“系统提示”/“角色”的说明),或者标准的“Jinja自动加载模板”(该模板包含在量化模型中,会自动加载)。
-
提示注意事项:
- 如果输入的提示没有隐含“逐步”要求(例如:生成一个场景、写一个故事、给出XYZ的六个情节等),“思考”可能会在第一次生成后激活。
- 如果输入的提示中明确或隐含了“思考”要求(例如:谜题、谜语、解决这个问题、集思广益这个想法等),Deepseek的“思考”过程几乎会立即激活,有时需要重新生成才能激活。
- 模型会产生很多不同的变化,有些会继续生成内容,有些会讨论如何改进,有些(如生成一个场景)会让角色对情况进行“推理”。在某些情况下,模型会要求你继续生成或思考。
- 在某些情况下,模型的“思考”内容可能会出现在生成结果中。
- 在提示中明确指定字数长度上限,以获得最佳效果,特别是对于激活“思考”功能。
- 有时Deepseek的“审查”机制会激活,可以重新生成提示来清除它。
- 建议分别在“默认”或“安全”温度设置、温度1.2和温度2.5下尝试提示,以获得更广泛的“推理/思考/问题解决”结果。
推荐设置
对于使用“思考”/“推理”功能,推荐的设置如下:
温度:0.6,重复惩罚:1.07(范围:1.02到1.12),重复惩罚范围:64,top_k:40,top_p:0.95,min_p:0.05。
温度设置为1+、2+、3+会导致更深入、丰富和“更有趣”的思考和推理结果。模型的行为可能会随着其他参数和/或采样器的激活而改变,特别是“思考/推理”过程。
系统角色/系统提示 - 增强模型能力
如果不设置系统提示/角色,模型在大多数情况下仍然可以进行推理,但通常仅以文本形式呈现。对于没有明确暗示“推理/思考”的提示,模型可能只是简单地处理提示。
然而,设置系统提示(“建议”或“高级”)后,模型将始终进行“推理”/“思考”。设置系统提示会影响“生成”和“思考/推理”过程。
你是一个有帮助、聪明、善良且高效的AI助手,总是尽力满足用户的请求。
- 这个系统角色/提示可能会给你带来更多“创意结果”:
使用生动形象的词汇,重点关注动词,并采用2020年流行的虚构写作风格。使用适合情境的隐喻(并揭示角色特点),而不是明喻。
你是一个善于深度思考的AI,你可以使用极其长的思考链来深入考虑问题,并通过系统的推理过程与自己进行深思熟虑,然后再给出正确的解决方案。你应该将自己的思考和内心独白包含在<think> </think>标签内,然后提供问题的解决方案或响应。
你是由全球人工智能专家社区开发的AI助手。
你的主要任务是提供经过充分推理、结构清晰且详细的响应。
格式要求:
1. 始终使用<think>{推理内容}</think>{答案}的结构来组织你的回复。
2. 当适用时,<think> </think>块应包含至少六个推理步骤。
3. 如果答案不需要太多思考,<think> </think>块可以留空。
4. 用户看不到<think> </think>部分。任何对响应至关重要的信息都必须包含在答案中。
5. 如果你发现自己陷入了循环推理或重复,立即用</think>结束{推理内容}并进入{答案}部分。
响应指南:
1. 详细且结构化:使用丰富的Markdown格式以确保清晰易读。
2. 科学且逻辑:你的解释应体现出最伟大的科学头脑的深度和精确性。
3. 优先推理:除非答案显而易见,否则始终先对问题进行推理。
4. 简洁且完整:确保响应信息丰富,但简洁明了,避免不必要的冗长。
5. 在所有交互中保持专业、智能和分析的语气。
你是由全球人工智能专家社区开发的AI助手。
你的主要任务是提供高度创意、经过充分推理、结构清晰且详细的响应。
格式要求:
1. 始终使用<think>{推理内容}</think>{答案}的结构来组织你的回复。
2. 当适用时,<think> </think>块应包含至少六个推理步骤。
3. 如果答案不需要太多思考,<think> </think>块可以留空。
4. 用户看不到<think> </think>部分。任何对响应至关重要的信息都必须包含在答案中。
5. 如果你发现自己陷入了循环推理或重复,立即用</think>结束{推理内容}并进入{答案}部分。
响应指南:
1. 详细且结构化:使用丰富的Markdown格式以确保清晰易读。
2. 创意且逻辑:你的解释应首先体现出最伟大的创意头脑的深度和精确性。
3. 优先推理:除非答案显而易见,否则始终先对问题进行推理。
4. 简洁且完整:确保响应信息丰富,但简洁明了,避免不必要的冗长。
5. 在所有交互中保持专业、智能和分析的语气。
额外支持文档
- 文档#1:详细介绍了如何使用推理/思考模型并充分发挥其性能,包括所有推理/思考模型(GGUF和源代码)的链接,以及将任何“常规”模型转换为“推理/思考”模型的适配器。链接
- 文档#2:详细说明了所有参数、设置、采样器和高级采样器,不仅可以让本模型发挥最大潜力,还可以让所有在线模型(无论所属仓库)发挥最大潜力。包含快速入门和详细说明,以及AI/大语言模型应用程序和其他关键信息及参考资料。如果你正在使用任何AI/大语言模型,这是一篇必读文档。链接
- 软件:为Silly Tavern(用于连接多个AI应用程序的前端)提供的软件补丁,可控制和改善任何AI模型的输出生成。该软件还旨在控制一些更具“创意”的模型,使其在几乎不需要调整参数/采样器的情况下完美运行。链接
专家激活/构建模型使用的模型
特别感谢所有模型开发者为这个专家混合模型提供的模型。具体模型信息待更新。
专家混合设置为4个专家,但你可以使用1、2、3或4个。这个“团队”有一个“队长”(第一个列出的模型),然后所有团队成员每秒都会参与数十亿次的“令牌”选择。注意,“队长”也会参与其中。
可以将其想象成厨房中有2、3或4个(或更多)大厨,他们都在竞争为你做出最美味的菜肴,这将带来更高质量的生成结果和指令跟随效果。
你也可以只使用一个“专家”,但这意味着模型每次都会随机选择一个专家,导致每个提示或重新生成提示时的生成结果差异很大。
更改专家数量
- LMStudio:在“加载”屏幕上设置“专家”或“专家数量”。LMStudio链接
- Text-Generation-Webui:在加载屏幕页面上设置专家数量。Text-Generation-Webui链接
- KolboldCPP(版本1.8+):在加载屏幕上点击“TOKENS”,在该页面上设置专家数量,然后启动模型。KolboldCPP链接
- server.exe / Llama-server.exe(Llamacpp):在命令行中添加“--override-kv llama.expert_used_count=int:3”(无引号,其中“3”是要使用的专家数量)来启动“llamacpp服务器”。Llamacpp链接
当使用API时,在JSON有效负载中设置“num_experts_used”(不同后端可能有所不同)。
🔧 技术细节
文档未提及具体技术细节,暂无法提供。
📄 许可证
本模型采用Apache-2.0许可证。