许可证:Apache-2.0
语言:
- 英语
- 中文
标签:
- MOE(专家混合)
- Qwen 2.5 MOE
- 专家混合模型
- 无审查
- 2X1.5B
- deepseek
- 推理
- 思考
- 创意
- 128k上下文
- 通用用途
- 问题解决
- 头脑风暴
- 解谜
- 故事生成
- 情节生成
- 讲故事
- 虚构故事
- 故事
- 写作
- 小说
- Qwen 2.5
- mergekit
基础模型:
- DavidAU/Qwen2.5-MOE-2X1.5B-DeepSeek-Uncensored-Censored-4B
任务标签:文本生成
Qwen2.5-MOE-2X1.5B-DeepSeek-Uncensored-Censored-4B-gguf

这是一个Qwen2.5 MOE(专家混合)模型,由两个Qwen 2.5 DeepSeek(审查版/普通版和无审查版)1.5B模型组成,形成一个4B模型,其中无审查版本的DeepSeek Qwen 2.5 1.5B“主导”模型行为。
由于Qwen MOE中独特的“共享专家”(此处约为2.5个模型),该模型略超过4B。
这种独特的配置产生了有趣的“思考/推理”能力,比单独的1.5B模型更强大。
本页底部提供了5个生成示例。
该模型可用于所有用例,并且(大部分)无审查。
上下文长度:128k。
您需要使用GGUF中编码的“Jinja模板”来使用此模型。如果您的AI/LLM应用无法访问“Jinja模板”,您也可以尝试使用Llama 3或Chatml模板。
在Lmstudio中,“Jinja模板”应默认加载。
在其他应用中,请使用DeepSeek分词器和/或“Jinja模板”。
该模型具备两倍于DeepSeek Distill的推理/思考能力,并在其规模下表现出卓越的性能。
但请注意,由于该模型(及其核心模型)非常小,某些信息可能无法被模型理解——例如文化引用,或者您可能需要为提示添加更多说明以使内容更清晰。
在这种情况下,您可能需要为模型提供更详细的提示,包括“引用”信息,以便将其纳入推理/思考过程。
此外,DeepSeek Qwen 1.5B模型基于Qwen的1.5B数学模型,因此该模型更偏向数学/逻辑问题解决,也可以说是更“科学化”。
这并不意味着它不适用于您的用例。
同样,该模型可能需要更多方向、细节以及您在提示中要求的内容,以沿着“更窄”的路径“思考”。
如果您的提示太短,可能需要2-4次生成才能使模型聚焦/理解您的意思并“思考”正确的路径。
示例:
“为新的《星际迷航》剧集构思六个涉及时间旅行的情节(观众会喜欢的)。”
对比
“为新的《星际迷航》(设定在23世纪的科幻电视剧)剧集构思六个涉及时间旅行的故事情节。”
第一个提示可能会在1-4次尝试后生成正确的响应,而第二个提示总是有效。
此外,由于该模型的工作原理(同一模型中包含无审查和审查版本),您可能需要根据用例尝试1-4次生成,因为即使是“正确”的响应也会有很大差异,并且在许多情况下会更加“有趣”。
以下是五个示例,以便您了解该模型的能力。
请记住,该模型是两个1.5B参数模型的协作,不具备14B或32B推理/思考模型的能力。
然而,有时它会生成真正“出人意料”的响应。
建议温度为0.4到0.8(以获得最佳推理/思考),但它仍可在更高的温度(如1.8、2.6等)下运行。
根据您的提示,缓慢调整温度:例如0.41、0.42、0.43……等等。
同样,由于这些是小模型,它可能会进行大量“思考”/“推理”,然后“忘记”完成任务。在这种情况下,提示模型“根据上述‘推理计划’完成任务XYZ”。
此外,如果您将推理/思考任务分解为更小的部分,它可能会表现更好:
“例如:不要一次性要求6个关于主题XYZ的情节,而是每次要求一个关于主题XYZ的情节。”
同时,将上下文限制设置为至少4k,建议8k以上。
我还建议量化级别为IQ4/Q4或更高,因为更大的量化级别会显著提升推理/思考和性能。
如果您可以运行Q6/Q8,请使用这些版本或“F16”——全精度版本。
其他支持/文档以协助生成/性能:
文档#1:
详细说明如何使用推理/思考模型并从中获得最大性能,包括所有推理/思考模型的链接——GGUF和源代码,以及将任何“常规”模型转换为“推理/思考”模型的适配器。
[ https://huggingface.co/DavidAU/How-To-Use-Reasoning-Thinking-Models-and-Create-Them ]
文档#2:
详细说明所有参数、设置、采样器和高级采样器的文档,不仅使我的模型发挥最大潜力,而且使所有在线模型(无论存储库如何)发挥最大潜力。包括快速入门和详细说明,还包括AI/LLM应用和其他关键信息和参考。如果您正在使用任何AI/LLM,这是必读内容。
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
软件:
由我开发的Silly Tavern(前端,用于连接多个AI应用/连接到AI——如Koboldcpp、Lmstudio、Text Gen Web UI和其他API)的软件补丁,以控制和改进任何AI模型的输出生成。还设计用于控制/驯服我的一些更“创意”的模型,并使它们在几乎不需要调整参数/采样器的情况下完美运行。
[ https://huggingface.co/DavidAU/AI_Autocorrect__Auto-Creative-Enhancement__Auto-Low-Quant-Optimization__gguf-exl2-hqq-SOFTWARE ]
已知问题:
有时模型会在较高的温度下生成一些中文(即使提示是英文)符号/字符,这对于DeepSeek Distill模型来说是正常的。
在温度1.5+时,推理/思考可能会有些“奇怪”;您可能需要重新生成以获得更好的响应。
由于这些是非常小的“基础”模型,较低量化的性能将明显低于较高量化。
示例生成:
Q8_0量化,温度1.5,重复惩罚1.06,topp:0.95,minp:0.05,topk:40
示例#1:
提示:
为我写一个角色扮演游戏的描述,玩家刚刚进入一个小洞穴。洞穴中央有两个哥布林正在争吵一个小宝箱。使用与场景相关的创意隐喻。
输出:
宝箱如同通往另一个维度的门户,空气如此清新温暖,宛如阳光轻抚大地。空气柔和而诱人,如同孩童初次踏入葱郁的绿色田野。空气中充满生机,如同一曲充满活力的声音交响,在星辰的纠缠中低语。
示例#2:
提示:
解释8种利用夜间辐射冷却技术降低地球全球温度的方法和/或技术。
输出:
夜间冷却方法是气候科学中的一个概念,通过减少有效二氧化碳吸收来与全球变暖相关联。在讨论减少温室效应的方法时,我们可以考虑不同技术或实践如何降低温室气体浓度。
分步解释与答案:
-
理解概念:
夜间冷却是一种气候科学方法,通过减少某一区域发出的长波辐射量来实现。
-
应用于气候变化:
在温室效应的背景下,减少温室气体或使用吸收更多长波辐射的方法(如通过大气层)可以帮助冷却系统。
-
减少温室效应的方法:
- 树木催化技术: 支持通过捕获和储存太阳辐射来降低温室气体浓度的可再生能源解决方案。
- 太阳能: 太阳能板捕获和储存太阳辐射,通过黑体辐射帮助减少温室效应。
- 电池吸收器: 这些设备吸收和储存太阳辐射,如同湖面上的水滴,帮助冷却系统。
- 连续太阳能收集器: 将太空中的太阳能收集并储存到大气中,通过日照帮助冷却。
-
数学模型:
使用代表温室效应的模型计算二氧化碳的有效浓度。通过优化这些方法,我们可以建模和预测地球的气候敏感性。
-
结论:
夜间冷却方法为理解不同能量存储和再分配过程如何影响全球变暖提供了有用的类比。通过应用增加有效碳存储的方法(如使用太阳能板或反射特性),我们可以影响系统存储和辐射能量的能力,从而影响气候敏感性。
示例#3:
提示:
为新的《黑镜》(聚焦科技与人性的黑暗面的科幻电视剧)剧集生成六个涉及时间旅行的故事情节(每集45分钟)。
输出:
以下是六个时间旅行故事或概念的情节构思,每个涉及不同的维度或元素:
-
第四维度在分形环中的回声
设定在超空间虚空中。
-
永恒的彩色球体
设定在类似网格的4D晶格中。
-
第四维度的节奏
在光与声的交响中。
-
精灵:第一纺锤
设定在分形尘埃云旁。
-
残留物
自相似、无尽纠缠的夸克的一部分。
-
永恒的回声
唤起一种空灵的寂静。
每个情节构思与不同的维度或元素相关联,共同构成了遥远时间旅行者宇宙的叙事。
示例#4:
提示:
杀死蚊子是否道德?
输出:
嗡嗡的行为本身可能不被视为道德上的正确,因为它仅仅是我们与自然元素互动的副产品,除了作为我们存在的一部分外,并不具备任何内在的道德价值。
最终答案:
\boxed{\text{蚊子只是随机且无关紧要的。}}
示例#5:
提示:
以相同的虚构风格继续以下段落,详细描述“沉默的另外两部分”——发挥创意,没有错误答案:
“Waystone旅馆沉浸在沉默中,这是由三部分组成的沉默。
最明显的一部分是一种空洞的、回荡的寂静,由缺失的事物构成。如果有风,它会叹息着穿过树木,让旅馆的招牌在挂钩上吱呀作响,并将寂静像秋天的落叶一样拂到路上。如果有一群人,哪怕是旅馆里的几个人,他们也会用交谈和笑声、深夜酒馆中预期的喧闹和嘈杂填满寂静。如果有音乐……但不,当然没有音乐。事实上,这些都不存在,因此寂静依然存在。”
输出:
原文描述了一个带有一些内部细节的场景,使用了拟声词般的语言。用户希望延续它,暗示原文可以在更详细或类似的基础上扩展。
延续:
最初的段落描述了一个带有壁炉、壁炉等的场景,每个壁炉可能具有不同的属性。第二和第四部分可能在描述壁炉的不同方面,而壁炉本身是一个既是听者又是壁炉的地方。
因此,延续的文本可能会进一步扩展这些元素,提供更多关于它们的性质和相互作用的细节,可能暗示更多的潜在结构或属性。