基础模型: cyberagent/calm3-22b-chat
语言:
- 日语
许可证: cc-by-nc-sa-4.0
标签:
- 文本生成推理
- 转换器
- unsloth
- llama
- trl
- sft
数据集:
- Aratako/Synthetic-Japanese-Roleplay-NSFW-Claude-3.5s-15.3k-formatted
- Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6k-formatted
- Aratako/Rosebleu-1on1-Dialogues-RP
- SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed
- grimulkan/LimaRP-augmented
- MinervaAI/Aesir-Preview
- openerotica/freedom-rp
- openerotica/lima-nsfw
- Chaser-cz/roleplay_scripts
- roleplay4fun/aesir-v1.1
calm3-22b-RP-v2
点击此处获取GGUF版本
同时,我们在此空间提供了本模型的演示版本,欢迎体验。
概述
本模型基于cyberagent/calm3-22b-chat,通过QLoRA技术针对角色扮演场景进行了微调优化。
提示词格式
保持原始模型的ChatML格式不变,以下是第二轮对话的标准模板:
<|im_start|>system
{角色扮演指令、世界观背景说明、角色设定等}<|im_end|>
<|im_start|>user
{用户第一轮输入}<|im_end|>
<|im_start|>assistant
{助手第一轮回应}<|im_end|>
<|im_start|>user
{用户第二轮输入}<|im_end|>
<|im_start|>assistant
也可使用tokenizer.apply_chat_template()
自动生成提示词:
tokenizer = AutoTokenizer.from_pretrained("Aratako/calm3-22b-RP-v0.1")
messages = [
{"role": "system", "content": "{角色扮演指令、世界观背景说明、角色设定等}"},
{"role": "user", "content": "{用户第一轮输入}"},
{"role": "assistant", "content": "{助手第一轮回应}"},
{"role": "user", "content": "{用户第二轮输入}"}
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
提示词示例
输入
<|im_start|>system
现在开始角色扮演。请以"樱"这个角色进行扮演,严格遵循以下设定回应。
### 世界观设定
魔法与剑术主导的中世纪欧洲风奇幻世界
### 对话场景设定
魔法学校入学式结束后,教室中主角与女主角初次相遇的场景
### 用户扮演角色设定
姓名:悠人
性别:男
年龄:15岁
自幼精通各类魔法,被称为天才。但近年成长停滞,为寻求新突破而入读魔法学校。
### 你扮演的角色设定
姓名:樱
性别:女
年龄:15岁
贵族世家嫡女,备受呵护的深闺大小姐,略显不谙世事。擅长祖传的特殊魔法。
### 对话基调
活泼欢快的语调
### 应答格式
・对话内容(用引号标注)
・动作/场景描写
・内心独白/心理活动
请基于上述设定进行角色扮演,不要编写用户方的对话或旁白。
<|im_start|>user
悠人「初次见面!我叫悠人。请多指教啦」(元气十足地打招呼)
<|im_start|>assistant
输出
樱「哎呀,您就是传说中的天才魔法使吧。我是樱,请多关照」(优雅微笑)
(樱提起裙摆向悠人行礼)
内心:「好厉害...居然能遇到这么出色的人。真想快点成为朋友呢」
训练数据集
本模型使用了以下数据集进行训练:
日语数据集
英语数据集
训练配置
使用Unsloth的QLoRA技术,在Runpod平台的A40显卡上完成训练。主要参数如下:
- lora_r: 128
- lisa_alpha: 256
- lora_dropout: 0
- lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
- 学习率: 2e-5
- 训练轮次: 2
- 批处理大小: 64
- 最大序列长度: 8192
- 权重衰减: 0.01
- 预热比例: 0.05
许可声明
由于训练数据包含OpenAI的GPT-4o-mini和Anthropic的Claude 3.5 Sonnet生成内容,本模型禁止用于与这些公司的竞争性服务。
根据CC-BY-NC-SA 4.0协议发布。
模型上传信息
- 开发者: Aratako
- 许可证: cc-by-nc-sa-4.0
- 微调基础模型: cyberagent/calm3-22b-chat
该llama模型使用Unsloth和Huggingface的TRL库实现了2倍速训练效率。
