🚀 QwQ-32B-ArliAI-RpR-v4
QwQ-32B-ArliAI-RpR-v4 是 ArliAI 推出的一款专注于角色扮演与创意写作的模型。它基于成功的 RPMax 系列方法,在减少重复、提升创造力和长对话处理能力上有显著提升,能在长多轮角色扮演聊天中输出连贯且有趣的内容。
🚀 快速开始
你可以通过以下链接访问该模型:https://arliai.com 。同时,我们也有一个模型排名页面:https://www.arliai.com/models-ranking 。
如果你有任何问题,可以在我们的新 Discord 服务器 https://discord.com/invite/t75KbPgwhk 或我们的子版块 https://www.reddit.com/r/ArliAI/ 提问。
✨ 主要特性
RpR v4 版本的改进
- 减少重复和模仿:为了增强 RpR v3 的创造性和跳出常规思维的能力,采用了更先进的过滤方法,以去除大语言模型重复相似短语或代用户发言的示例。若出现重复或模仿情况,这是由于基础 QwQ 模型的训练方式导致,而非 RpR 数据集的问题。
- 增加训练序列长度:将训练序列长度增加到 16K,以提高模型在长对话中的感知和记忆能力。
RpR 系列概述:基于 RPMax 并融入推理能力
RpR(带推理的角色扮演)是 ArliAI 推出的新系列模型。该系列直接基于为 RPMax 系列开发的成功数据集整理方法和训练方法构建。
- 数据集特点:RpR 模型使用与 RPMax 相同的经过整理和去重的角色扮演及创意写作数据集,注重多样性,以确保高创造力并减少跨上下文重复。熟悉 RPMax 的用户会发现其独特的、不重复的写作风格,这与其他针对角色扮演进行微调的模型不同。
- 推理数据集的创建:为了创建 RpR,我们首先将现有的优质 RPMax 数据集重新处理为推理数据集。通过使用基础 QwQ 指令模型为 RPMax 数据集中的每个对话示例创建推理过程,然后进一步优化,确保推理与数据集中的实际响应示例一致。
- 训练方式:为了确保模型在推理时的表现,训练过程使用 axolotl 和无手动模板的分段数据集,使模型在训练时不会看到推理块,就像在推理时一样。
📚 详细文档
模型描述
QwQ - 32B - ArliAI - RpR - v4 是 RpR 系列的第三个版本。它是一个 320 亿参数的模型,基于整理后的 RPMax 数据集,使用 RpR 数据集进行微调,并结合了在长多轮对话中保持推理能力的技术。
推荐采样器
- RpR 模型与重复惩罚类型的采样器配合效果不佳,即使是更先进的采样器,如 XTC 或 DRY。
- 它在简单采样器设置下效果最佳,并允许进行长时间推理(高最大令牌数)。
- 你也可以下载本仓库文件部分上传的 ST 主导出文件。
推荐首先设置以下参数:
- 温度(Temperature):1.0
- 最小概率(MinP):0.02
- TopK:40
- 响应令牌数(Response Tokens):2048+
规格参数
属性 |
详情 |
基础模型 |
QwQ - 32B |
最大上下文长度 |
使用 Yarn 时最大 128K(与基础 QwQ 原生 32K 相同) |
参数数量 |
320 亿 |
是否为推理模型 |
是 |
训练详情
- 序列长度:16384
- 训练轮数(Epochs):1 轮(继承自 RPMax 方法)
- 微调方法:RS - QLORA +(秩稳定 LoRA + LoRA 加 8 倍)
- 秩/阿尔法(Rank/Alpha):128 - 秩 128 - 阿尔法
- 学习率:0.00001
- 调度器:Rex
- 梯度累积:32
训练图表

量化
- BF16:[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4)
- GGUF:[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF)
在 ST 中正确使用推理模型的方法

对于任何推理模型,你需要确保设置以下参数:
- 前缀:仅设置为
<think>
,后缀仅设置为 </think>
,无空格或换行符。
- 回复以
<think>
开头。
- 始终添加角色名称:取消勾选。
- 包含名称:设置为从不。
- 聊天模板:应符合所使用的模型。
⚠️ 重要提示
推理模型只有在“包含名称”设置为“从不”时才能正常工作,因为它们总是期望用户回合的结束符(eos 令牌)后跟 <think>
令牌,以便在输出响应之前开始推理。如果你启用了“包含名称”,则会在末尾添加角色名称,如“Seraphina:<eos_token>”,这会使模型混淆是应该先响应还是先推理。
其余采样器参数可以根据需要进行设置。
如果看不到推理内容包含在思考块中,则可能是你的设置仍然不正确,或者你的 ST 版本太旧,不支持推理块自动解析。
如果整个响应都在推理块中,则 <think>
和 </think>
推理令牌的后缀和前缀可能有额外的空格或换行符,或者模型不够智能,无法始终将推理内容放在这些令牌之间。
如果设置正确,应该如下所示:

RPMax 基础(数据集和训练理念)
目标:减少重复并提高创造力
用于 RPMax 和 RpR 的数据集整理目标是减少重复,并提高模型在不同情况下进行创意写作的能力。这意味着模型在不同情况下的输出响应差异很大,不会陷入可预测的套路。
重复和创造力的定义
- 创造力:指模型能够产生多样化输出的能力,不应将其与优美的写作风格混淆。一个写作优美的模型不一定是有创造力的模型。
- 重复的类型:
- 上下文内重复:指模型在单个对话中重复相同短语的倾向。这种重复在某些情况下可能是有意的,因此 RPMax 和 RpR 系列目前尚未专注于消除这种重复。
- 跨上下文重复:指模型在非常不同的情况下重复相同短语或套路的倾向。这是一种不好的重复,表明模型在训练数据集中过度拟合了某种“创意写作”风格。RPMax 和 RpR 数据集整理的主要目标是通过减少跨上下文重复来创建一个高度有创造力的模型。
数据集整理
- 数据来源:该数据集包含尽可能多的开源创意写作和角色扮演数据集(均来自 Hugging Face),并去除了纯合成生成的数据集,因为这些数据集往往会降低模型的性能。
- 去重处理:使用 Llama 3.1 8B(或类似能力的模型)创建数据集中角色和情况的数据库,然后对数据集进行去重,确保每个角色或情况只有一个条目。
微调的黄金法则
与预训练阶段不同,微调模型的关键不是数据量,而是质量。因此,这里使用的数据集比包含重复角色和情况的数据集小得多,但最终结果是一个不会让人感觉是另一个创意写作/角色扮演模型的“近亲繁殖”版本。
训练参数和非常规方法
RPMax 和 RpR 方法使用单个 epoch、低梯度累积和高于正常的学习率。训练期间的损失曲线不稳定,但随着时间的推移会逐渐下降。这种方法允许模型从数据集中的每个示例中学习更多,避免模型过度依赖单个角色或故事套路。
📄 许可证
本项目采用 Apache - 2.0 许可证。