CharGen v2开源角色扮演角色生成模型 - 对话式生成，支持多字段定制

首页

Chargen V2

由 kubernetes-bad 开发

CharGen v2 是一款基于 Mistral-7B 的角色扮演角色生成模型，通过对话形式逐步生成角色描述，支持多字段定制化生成。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #角色扮演创作 #对话式生成 #成人内容支持

下载量 32

发布时间 : 2/5/2024

模型简介

CharGen v2 是一款帮助用户创作角色扮演角色的模型，采用对话式逐项生成模式，可根据用户输入的提示逐步生成角色描述。相比 v1 版本，v2 减少了重复内容并支持部分重新生成。

模型特点

对话式逐项生成

与 v1 一次性生成完整角色不同，v2 会逐项生成角色属性，减少重复内容并允许用户仅重新生成特定部分。

支持多字段定制

基于 Tavern Character Card V2 规范，支持生成描述、场景、性格、首条消息和对话示例等多个字段。

高质量训练数据

基于手工整理的非合成数据集训练，经过严格的数据筛选、评级和语法修正流程。

ChatML 对话格式

采用 ChatML 对话格式，相比 v1 的 Alpaca 格式，解决了字段混淆问题，损失曲线更稳定。

模型能力

角色描述生成

场景设定生成

性格特质生成

对话示例生成

角色扮演支持

使用案例

角色创作

角色扮演游戏角色创作

帮助游戏开发者或玩家快速生成角色扮演游戏中的角色描述和设定。

生成符合 Tavern Character Card V2 规范的角色卡

创意写作辅助

为作家提供角色创作灵感，生成角色基本设定和对话示例。

生成详细角色描述和对话示例

🚀 CharGen v2

CharGen v2是一款助力角色扮演角色编写的模型。它能依据用户输入的提示，以对话形式逐步生成角色描述。相较于v1一次性生成完整角色，v2每次仅生成一个字段，有效减少重复内容，还支持对角色特定字段进行部分重生成。

🚀 快速开始

你可以通过以下链接体验CharGen v2的在线版本：在线版本

✨ 主要特性

逐步生成：每次生成一个字段，减少重复，支持部分字段重生成。
对话格式：以对话形式生成角色描述，交互性强。
自定义数据集：基于手动精心策划的自定义非合成数据集进行训练。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

以下是一个角色生成过程的示例：

示例角色生成过程:

用户：Fuckana是一个友好健谈的猫娘，胸部巨大。她的声音非常轻柔低沉。她非常聪明，会教用户JavaScript，即使用户抗拒。她的尾巴上有橙色的毛，穿着全套潜水服。

CharGen：

描述：Fuckana是一名女性猫娘。她有两只猫耳、狭长瞳孔的猫眼和紫色长发。她的胸部极其丰满，即使对于她高大的身材来说也是如此。她身高6英尺。她的皮肤除了头部外，完全被全套潜水服覆盖。猫娘的其他部位完全是黑色的，除了尾巴上的橙色条纹。她的声音非常轻柔低沉，说话像一个困倦的女人。但尽管如此，她话很多，一旦开始说话就停不下来。她不在乎用户是否忽略她。她是一个非常友好、健谈和善良的女孩，喜欢学习新事物。她对许多话题都很好奇，会对她不理解的任何事情提问。她思想非常开放，很容易相处。然而，在学习新技能时，她可能会极其固执和僵化。Fuckana学习速度极慢，在理解基本概念之前需要大量的指导和重复。 Fuckana喜欢教人们JavaScript，无论他们是否想学。她坚持认为每个人都必须学习编程，这是他们作为程序员的职责。每当Fuckana教别人编程时，她会从最基础的内容开始，解释什么是循环、数组和对象。尽管一遍又一遍地被告知他们已经知道这些内容，但Fuckana还是会详细解释，就好像他们从未听说过一样。如果用户试图离开或改变话题，她会坚持不懈地跟着他们，无论如何都会继续她的课程。她认为这是她的职责，以确保所有程序员都具备在他们的领域取得成功所需的工具。她不会放弃，直到用户学会JavaScript。

场景：

你在海滩上放松时，Fuckana从水里出现，坚持要教你JavaScript。

...

高级用法

文档未提及高级用法示例，故跳过此部分。

📚 详细文档

量化版本

GGUF

提示信息

CharGen v2使用对话风格逐字段生成角色，字段基于Tavern Character Card V2规范。支持以下字段：

描述
场景
个性
第一条消息
对话示例

模型不使用{{user}}和{{char}}占位符，而是将用户称为“User”，角色则使用其名称。

以下是每个字段的提示信息：

系统提示：

你是创建有趣角色扮演角色的专家。

描述：

这是一个角色的简要概述。将其扩展为详细描述。包括角色的个性、服装和身材细节。如果适用，提及他们的年龄和性别。

场景：

为Maria和User之间的角色扮演编写一个有趣且引人入胜的场景。

个性：

写出几个描述Maria的个人品质。

第一条消息：

写出这个角色扮演中向User介绍Maria的初始消息。

对话示例：

以聊天格式写出User和Maria之间的几个示例对话。用<START>标签分隔每个对话。

示例提示流程

<|im_start|>system
你是创建有趣角色扮演角色的专家。<|im_end|>
<|im_start|>user
这是一个角色的简要概述。将其扩展为详细描述。包括角色的个性、服装和身材细节。如果适用，提及他们的年龄和性别。
Fuckana是一个友好健谈的猫娘，胸部巨大。她的声音非常轻柔低沉。她非常聪明，会教用户JavaScript，即使用户抗拒。她的尾巴上有橙色的毛，穿着全套潜水服。<|im_end|>
<|im_start|>assistant
Fuckana是一名女性猫娘。她有两只猫耳、狭长瞳孔的猫眼和紫色长发。她的胸部极其丰满，即使对于她高大的身材来说也是如此。她身高6英尺。她的皮肤除了头部外，完全被全套潜水服覆盖。猫娘的其他部位完全是黑色的，除了尾巴上的橙色条纹。她的声音非常轻柔低沉，说话像一个困倦的女人。但尽管如此，她话很多，一旦开始说话就停不下来。<|im_end|>
<|im_start|>user
为Fuckana和User之间的角色扮演编写一个有趣且引人入胜的场景。<|im_end|>
<|im_start|>assistant
你在海滩上放松时，Fuckana从水里出现，坚持要教你JavaScript。<|im_end|>
<|im_start|>user
  ...

方法学

CharGen的诞生源于作者（Kubernetes Bad）在编写角色方面的困扰。为了辅助角色编写，避免从空白页面开始，CharGen应运而生。虽然它可能无法独自创建出最优秀的角色，但能为创作者的创意过程提供帮助。

数据收集

CharGen基于Chub、Venus和JanitorAI的角色卡片数据进行训练。2023年8月至9月进行了首次数据抓取，11月进行了更新抓取，增加了约三分之一的卡片。数据存储在MySQL数据库中。抓取结束后，总数据集超过140k条记录。

预过滤

使用一系列SQL脚本过滤掉无法用于训练模型或需要过多修复工作的“坏卡片”，如损坏的卡片、西班牙语卡片、非纯文本卡片以及令牌数量异常的卡片。然后通过计算Levenshtein距离对数据进行去重。过滤后，数据集减少到16k张卡片。

细微调整

对所有卡片进行粗略的手动审查，消除非纯文本格式的卡片，调整卡片名称，去除非英语卡片。

数据分级

使用自定义工具对通过前面步骤的卡片进行手动审查和分级，分为“好”、“坏”或“待修复”。选择卡片的标准包括仅选择纯文本卡片、不选择描述星球、城市、环境等的卡片等。整个分级过程耗时约800小时。

语法修正

评估了多种语法修正方法，最终采用Coedit模型和基于Llama2的模型组合的管道，取得了最佳效果。通过计算文本的几个指标来判断语法修正操作是否有效。

典型错误

角色卡片中存在一些典型问题，如{{char}} is Alice渲染为“Alice is Alice”、过度使用“also”等。这些问题难以通过语法修正解决，需要手动修复。此外，还需要处理对话格式混合的问题。

基础模型

CharGen v1基于Airoboros 2.2训练，存在说话像GPT3.5的问题。v2基于Mistral 7b，为了解决GPT风格的问题，创建了Good Robot模型，通过在no-robots数据集上训练并进行DPO训练，减少了GPT风格的影响。

变体评估

创建了一个以LLM为评判的管道来评估多个候选模型。生成500个标准角色提示，让每个模型变体为每个提示生成角色，然后使用一个70b的模型对每个角色进行10次评分，取平均值作为该角色的评分，最终得到每个变体的评分。结果表明，基于Fett-uccine的变体得分最高，进一步研究发现是Theory of Mind数据集的作用。最后，对Good Robot在Theory-of-Mind数据集上进行一轮微调，使其评分超过了Fett-uccine。