许可证:apache-2.0
缩略图:https://cdn-uploads.huggingface.co/production/uploads/6625f4a8a8d1362ebcc3851a/hIZ2ZcaDyfYLT9Yd4pfOs.jpeg
语言:
- 英文
基础模型:
- ArliAI/QwQ-32B-ArliAI-RpR-v4
库名称:transformers
流水线标签:文本生成
QwQ-32B-ArliAI-RpR-v4
图片由Arli AI图像生成工具生成 https://www.arliai.com/image-generation
RpR v4更新:
ArliAI迄今为止最优秀的RP/创意模型再次升级。
RpR系列概述:基于RPMax的推理构建
RpR(带推理的角色扮演)是ArliAI推出的新系列模型。该系列直接建立在RPMax系列成功的数据集构建方法和训练技术之上。
RpR模型采用了与RPMax相同的经过筛选、去重的RP和创意写作数据集,注重多样性以确保高度创造性并减少跨上下文重复。熟悉RPMax的用户将识别出这种独特、非重复的写作风格,与其他为RP微调的模型截然不同。
随着QwQ作为首个高性能开源推理模型的发布(易于训练),我们发现现有的指导和创意写作推理数据集每个示例仅包含单一响应。这种单响应数据集会导致长轮次对话中输出质量下降。因此Arli AI决定开发真正具备长轮次推理对话能力的RP模型。
为创建RpR,我们首先需要将现有的优质RPMax数据集重构为推理数据集——通过使用基础QwQ Instruct模型为RPMax对话示例的每个回合生成推理过程,并进一步优化确保推理逻辑与数据集的实际响应示例保持一致。
另一个关键点是确保模型训练时接触的推理块呈现方式与推理时完全一致——即上下文中绝不出现推理块。为此,我们使用axolotl工具配合手动无模板分段数据集完成训练,确保模型永远不会在上下文中看到推理块,与其实际使用场景完全一致。
采用这种方法和数据集训练的QwQ模型,即使在长轮次RP对话中也能持续输出连贯有趣的响应。据我们所知,这是首个真正为RP和创意写作正确训练的推理模型。
访问模型:https://arliai.com
模型排名页:https://www.arliai.com/models-ranking
提问渠道:
新Discord服务器 https://discord.com/invite/t75KbPgwhk
或我们的subreddit https://www.reddit.com/r/ArliAI/
模型描述
QwQ-32B-ArliAI-RpR-v4是RpR系列的第三次发布。这个320亿参数的模型基于精选的RPMax数据集,通过RpR数据集微调,结合了保持长轮次对话推理能力的技术。
推荐采样器
- RpR模型不适用重复惩罚类采样器(包括XTC/DRY等高级采样器)
- 最佳表现需简单采样设置+充足推理时间(高最大token数)
- 可从本仓库文件区下载ST master导出配置
推荐初始设置:
- 温度:1.0
- MinP:0.02
- TopK:40
- 响应token数:2048+
规格
- 基础模型:QwQ-32B
- 最大上下文长度:原生32K(使用Yarn可达128K)
- 参数量:320亿
- 推理模型:是
训练详情
- 序列长度:16384
- 训练轮次:1轮(继承RPMax方法)
- 微调方法:RS-QLORA+(秩稳定LoRA+LoRA Plus 8x)
- 秩/alpha值:128-rank 128-alpha
- 学习率:0.00001
- 调度器:Rex
- 梯度累积:32
优质训练曲线图
量化版本
- BF16:https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v4
- GGUF:https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v4-GGUF
ST工具正确使用方法
通用推理模型设置要点:
- 前缀仅设<think>,后缀仅设</think>(无空格/换行)
- 回复以<think>开头
- 取消勾选"始终添加角色名"
- "包含名称"设为"永不"
- 聊天模板需与模型要求一致
注意:推理模型仅在"包含名称"设为"永不"时正常工作,因为它们始终预期用户回合的eos_token后接<think>token来启动推理。若启用名称包含,系统会追加"角色名:<eos_token>",混淆模型响应顺序。
其他采样参数可自由设置。若未看到推理块包裹的思考内容,请检查:
- 设置是否符合示例
- ST版本是否过旧(需支持自动解析推理块)
若整个响应都在推理块中,可能是<think>/</think>标记含多余空格/换行,或模型非智能推理型。
正确配置示例:
详情:RPMax基础(数据集与训练理念)
以下章节详述了RPMax数据集与训练方法的核心理念,这些构成了RpR系列的基础。
目标:减少重复与提升创意
RPMax和RpR的数据集构建旨在减少重复,增强模型在不同情境下的创意写作能力。这意味着模型能输出差异显著的响应,而不会陷入可预测的套路。
何为重复与创意?
创意应指模型输出内容的多样性,而非单纯的优美文笔。模型能写出小说般的文字并不等同于具有创造性——这只是某种令人愉悦的写作风格。
重复与创意本质相关:重复的模型必然缺乏创意,因其只能复现相似响应。重复实际分为两种:
上下文内重复:通常指模型在单次对话中重复相同短语(如角色反复"撩头发...")。这种重复有时可能是作者有意为之的表现手法,因此完全杜绝未必总是有利。RPMax/RpR暂未重点消除此类重复。
跨上下文重复:更严重的问题是模型在不同情境重复相同短语/套路(如滥用"脊背发凉")。这种重复总是负面的,表明模型对训练数据中的"创意写作"风格过度拟合。此类重复也体现在角色命名趋同(如高频出现的"Elara"和"Whispering Woods")。
RPMax/RpR数据集的核心目标正是通过减少跨上下文重复来提升创意——这种重复会持续影响不同对话。我们通过确保数据集不包含重复情境或角色来实现这点。
数据集构建
模型成功的秘诀在于训练方法和独特数据集。我们整合了Hugging Face上所有可用的开源创意写作/RP数据集,剔除纯合成数据(这类数据通常只会弱化模型,使其学习GPT式套路)。
随后使用Llama 3.1 8B(或同级模型)建立角色与情境数据库,对数据集去重确保每个角色/情境唯一。
微调黄金法则
与预训练阶段"数据越多越好"不同,微调的关键在于质量而非数量。因此本数据集规模远小于包含重复内容的数据集,但最终产出的是不落俗套的创意模型。
训练参数与非常规方法
传统方法采用低学习率+高梯度累积实现稳定损失,通过多轮训练达到可接受损失值。
而RPMax/RpR方法仅用单轮训练,配合低梯度累积+较高学习率。训练期间损失曲线波动剧烈,但整体呈下降趋势。理论认为这能使模型更专注学习每个独立示例,避免通过多轮训练强化特定角色/套路。
损失波动是因为模型遇到新示例时缺乏类似经验。最终约1.0的损失值是可接受的——因为目标不是复现训练数据,而是创造具备自主响应风格的模型。这与训练领域专用模型(如企业知识库)有本质区别。
立即体验!
模型偏好具有主观性,诚邀您亲自试用QwQ-32B-ArliAI-RpR-v4。无论正面还是负面的反馈,都将帮助我们改进未来的RPMax和RpR模型。