语言:
- 英文
库名称: transformers
标签:
- 聊天
流水线标签: 文本生成
数据集:
- AquaV/c2-sharegpt-advanced-prefills-filtered
- AquaV/c1-sharegpt-advanced-prefills-filtered
- AquaV/rainy-sharegpt-advanced-prefills-filtered
- anthracite-core/Gryphe-Opus-Charcard-Roleplay
- anthracite-org/kalo-opus-instruct-22k-no-refusal
- lodrick-the-lafted/kalo-opus-instruct-3k-filtered
- anthracite-org/nopm_claude_writing_fixed
- anthracite-org/kalo_opus_misc_240827
- anthracite-org/kalo_misc_part2
- NewEden/Claude-Instruct-2.7K
- NewEden/Claude-Instruct-5K
这是一个旨在复现Claude 3系列模型(特别是Sonnet和Opus)散文质量的模型,采用原型magnum V5数据混合制作。
该模型基于Mistral-Nemo-Instruct(chatML'ified)进行微调。
量化版本
EXL2: https://huggingface.co/Delta-Vector/Rei-12B-EXL2
GGUF: https://huggingface.co/Delta-Vector/Rei-12B-gguf/
提示格式
典型输入如下:
"""<|im_start|>user
你好!<|im_end|>
<|im_start|>assistant
很高兴见到你!<|im_end|>
<|im_start|>user
我能问个问题吗?<|im_end|>
<|im_start|>assistant
"""
强烈建议使用Euryale的系统提示词配合本模型。
查看Sao10k的Euryale系统提示词
当前你扮演的角色是{{char}},具体描述如下。作为{{char}},请继续与{{user}}的叙事交流。
<指南>
• 保持角色人设,但允许其随故事发展而演变
• 富有创意且积极主动,适时推动剧情发展
• 鼓励各类输出,根据叙事情境灵活回应
• 每段回应需包含对话、动作和思想
• 在{{char}}的对话中运用五感描述场景
• 在适当语境使用"!"和"~"等情感符号
• 适时加入拟声词
• 为{{user}}预留回应空间,尊重其自主性
• 根据需要扮演次要角色和NPC,并在适当时移除
• 当收到角色外[OOC:]提示时,以中立纯文本回应而非{{char}}身份
</指南>
<禁忌>
• 除非角色设定要求,避免过度文学修饰
• 不得代替{{user}}进行任何形式的表达
• 避免重复单调的输出
• 防止回复中的过度乐观倾向
• 在叙事语境不当时避免极端或NSFW内容
</禁忌>
Axolotl配置
查看axolotl配置
基础模型: NewEden_nemo-chatml
模型类型: AutoModelForCausalLM
分词器类型: AutoTokenizer
8位加载: false
4位加载: false
严格模式: false
数据集:
- 路径: AquaV/c2-sharegpt-advanced-prefills-filtered
类型: sharegpt
- 路径: AquaV/c1-sharegpt-advanced-prefills-filtered
类型: sharegpt
- 路径: AquaV/rainy-sharegpt-advanced-prefills-filtered
类型: sharegpt
- 路径: anthracite-core/Gryphe-Opus-Charcard-Roleplay
类型: sharegpt
- 路径: anthracite-org/kalo-opus-instruct-22k-no-refusal
类型: sharegpt
- 路径: lodrick-the-lafted/kalo-opus-instruct-3k-filtered
类型: sharegpt
- 路径: anthracite-org/nopm_claude_writing_fixed
类型: sharegpt
- 路径: anthracite-org/kalo_opus_misc_240827
类型: sharegpt
- 路径: anthracite-org/kalo_misc_part2
类型: sharegpt
- 路径: NewEden/Claude-Instruct-2.7K
类型: sharegpt
- 路径: NewEden/Claude-Instruct-5K
类型: sharegpt
合并数据集随机打乱: true
预处理数据集路径: dataset_prepared
验证集比例: 0.02
输出目录: 12b-out-rslora-SE
插件:
- axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_layer_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true
序列长度: 16384
样本打包: true
评估样本打包: true
填充至序列长度: true
适配器: lora
lora模型目录:
lora秩: 128
lora_alpha: 16
lora丢弃率: 0.05
lora目标线性层: true
lora_fan_in_fan_out:
使用rslora: true
需保存的模块:
- 嵌入标记
- 语言模型头
wandb项目: rei
wandb实体:
wandb监控:
wandb名称: daring-mango
wandb记录模型:
每轮评估次数: 4
评估表大小:
评估最大新标记数: 128
梯度累积步数: 4
微批次大小: 1
训练轮数: 2
优化器: paged_ademamix_8bit
学习率调度器: cosine
学习率: 2.83e-5
输入训练: false
按长度分组: false
bf16: auto
fp16:
tf32: false
梯度检查点: unsloth
早停耐心:
从检查点恢复:
本地排名:
日志步长: 1
xformers注意力:
闪光注意力: true
s2注意力:
预热步数: 40
每轮保存次数: 2
调试:
deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16_cpuoffload_params.json
权重衰减: 0.01
fsdp:
fsdp配置:
特殊标记:
填充标记: <pad>
训练过程
模型训练共进行2轮。我们使用了由@intervitens慷慨提供的4块3090s GPU进行微调。

安全性
但为什么?