QwQ-32B-ArliAI-RpR-v4-GGUF开源模型 - 支持角色扮演与创意写作长对话

首页

Qwq 32B ArliAI RpR V4 GGUF

由 ArliAI 开发

ArliAI推出的高性能角色扮演与创意写作推理模型，基于320亿参数的QwQ-32B基础模型微调，专注于长对话连贯性和创造性输出

大型语言模型

Transformers

英语开源协议:Apache-2.0 #长文本角色扮演 #推理增强创作 #16K上下文记忆

下载量 1,957

发布时间 : 5/22/2025

模型简介

专为角色扮演和创意写作优化的推理模型，通过重构RPMax数据集增强长轮次对话能力，减少重复和角色代演问题

模型特点

长对话推理能力

训练序列长度提升至16K，增强模型在长对话中的情境感知和记忆能力

减少重复与代演

采用先进过滤方法减少模型重复相似短语或替用户发言的情况

创意写作优化

基于精选RPMax数据集，确保输出高度创造性且减少跨上下文重复

扩展上下文支持

原生支持32K上下文长度，使用Yarn技术可扩展至128K

模型能力

长文本生成

角色扮演对话

创意写作

多轮次对话推理

使用案例

娱乐与创作

互动式角色扮演

与AI角色进行深度互动对话

生成连贯且符合角色设定的长对话

创意写作辅助

生成小说、剧本等创意内容

提供多样化的创意表达和情节发展

🚀 QwQ-32B-ArliAI-RpR-v4

QwQ-32B-ArliAI-RpR-v4 是 ArliAI 推出的一款专注于角色扮演与创意写作的模型。它基于成功的 RPMax 系列方法，在减少重复、提升创造力和长对话处理能力上有显著提升，能在长多轮角色扮演聊天中输出连贯且有趣的内容。

🚀 快速开始

你可以通过以下链接访问该模型：https://arliai.com 。同时，我们也有一个模型排名页面：https://www.arliai.com/models-ranking 。

如果你有任何问题，可以在我们的新 Discord 服务器 https://discord.com/invite/t75KbPgwhk 或我们的子版块 https://www.reddit.com/r/ArliAI/ 提问。

✨ 主要特性

RpR v4 版本的改进

减少重复和模仿：为了增强 RpR v3 的创造性和跳出常规思维的能力，采用了更先进的过滤方法，以去除大语言模型重复相似短语或代用户发言的示例。若出现重复或模仿情况，这是由于基础 QwQ 模型的训练方式导致，而非 RpR 数据集的问题。
增加训练序列长度：将训练序列长度增加到 16K，以提高模型在长对话中的感知和记忆能力。

RpR 系列概述：基于 RPMax 并融入推理能力

RpR（带推理的角色扮演）是 ArliAI 推出的新系列模型。该系列直接基于为 RPMax 系列开发的成功数据集整理方法和训练方法构建。

数据集特点：RpR 模型使用与 RPMax 相同的经过整理和去重的角色扮演及创意写作数据集，注重多样性，以确保高创造力并减少跨上下文重复。熟悉 RPMax 的用户会发现其独特的、不重复的写作风格，这与其他针对角色扮演进行微调的模型不同。
推理数据集的创建：为了创建 RpR，我们首先将现有的优质 RPMax 数据集重新处理为推理数据集。通过使用基础 QwQ 指令模型为 RPMax 数据集中的每个对话示例创建推理过程，然后进一步优化，确保推理与数据集中的实际响应示例一致。
训练方式：为了确保模型在推理时的表现，训练过程使用 axolotl 和无手动模板的分段数据集，使模型在训练时不会看到推理块，就像在推理时一样。

📚 详细文档

模型描述

QwQ - 32B - ArliAI - RpR - v4 是 RpR 系列的第三个版本。它是一个 320 亿参数的模型，基于整理后的 RPMax 数据集，使用 RpR 数据集进行微调，并结合了在长多轮对话中保持推理能力的技术。

规格参数

属性	详情
基础模型	QwQ - 32B
最大上下文长度	使用 Yarn 时最大 128K（与基础 QwQ 原生 32K 相同）
参数数量	320 亿
是否为推理模型	是

训练详情

序列长度：16384
训练轮数（Epochs）：1 轮（继承自 RPMax 方法）
微调方法：RS - QLORA +（秩稳定 LoRA + LoRA 加 8 倍）
秩/阿尔法（Rank/Alpha）：128 - 秩 128 - 阿尔法
学习率：0.00001
调度器：Rex
梯度累积：32

训练图表

训练损失评估损失

量化

BF16：[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4)
GGUF：[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF)

在 ST 中正确使用推理模型的方法

RpR ST 设置

对于任何推理模型，你需要确保设置以下参数：

前缀：仅设置为 <think>，后缀仅设置为 </think>，无空格或换行符。
回复以 <think> 开头。
始终添加角色名称：取消勾选。
包含名称：设置为从不。
聊天模板：应符合所使用的模型。

⚠️ 重要提示

推理模型只有在“包含名称”设置为“从不”时才能正常工作，因为它们总是期望用户回合的结束符（eos 令牌）后跟 <think> 令牌，以便在输出响应之前开始推理。如果你启用了“包含名称”，则会在末尾添加角色名称，如“Seraphina:<eos_token>”，这会使模型混淆是应该先响应还是先推理。

其余采样器参数可以根据需要进行设置。

如果看不到推理内容包含在思考块中，则可能是你的设置仍然不正确，或者你的 ST 版本太旧，不支持推理块自动解析。

如果整个响应都在推理块中，则 <think> 和 </think> 推理令牌的后缀和前缀可能有额外的空格或换行符，或者模型不够智能，无法始终将推理内容放在这些令牌之间。

如果设置正确，应该如下所示： RpR 示例响应

RPMax 基础（数据集和训练理念）

目标：减少重复并提高创造力

用于 RPMax 和 RpR 的数据集整理目标是减少重复，并提高模型在不同情况下进行创意写作的能力。这意味着模型在不同情况下的输出响应差异很大，不会陷入可预测的套路。

重复和创造力的定义

创造力：指模型能够产生多样化输出的能力，不应将其与优美的写作风格混淆。一个写作优美的模型不一定是有创造力的模型。
重复的类型：
- 上下文内重复：指模型在单个对话中重复相同短语的倾向。这种重复在某些情况下可能是有意的，因此 RPMax 和 RpR 系列目前尚未专注于消除这种重复。
- 跨上下文重复：指模型在非常不同的情况下重复相同短语或套路的倾向。这是一种不好的重复，表明模型在训练数据集中过度拟合了某种“创意写作”风格。RPMax 和 RpR 数据集整理的主要目标是通过减少跨上下文重复来创建一个高度有创造力的模型。

数据集整理

数据来源：该数据集包含尽可能多的开源创意写作和角色扮演数据集（均来自 Hugging Face），并去除了纯合成生成的数据集，因为这些数据集往往会降低模型的性能。
去重处理：使用 Llama 3.1 8B（或类似能力的模型）创建数据集中角色和情况的数据库，然后对数据集进行去重，确保每个角色或情况只有一个条目。