在Ko-Fi上支持我:https://ko-fi.com/deltavector
专为角色扮演与创意写作打造的系列融合模型,本模型是在Archaeo基础上进行强化学习训练的成果。采用Hamanasu-Magnum与Kunou融合方案,使用8台H200显卡通过Axolotl框架训练。
ChatML格式
"""<|im_start|>system
系统提示<|im_end|>
<|im_start|>user
你好!<|im_end|>
<|im_start|>assistant
很高兴见到你!<|im_end|>
<|im_start|>user
可以请教个问题吗?<|im_end|>
<|im_start|>assistant
"""
Axolotl配置
基础模型: ./model
插件:
- axolotl.integrations.liger.LigerPlugin
- axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin
liger_rope: true
liger_rms_norm: true
liger_layer_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true
cut_cross_entropy: false
8位加载: false
4位加载: false
严格模式: false
强化学习: kto
kto负面样本权重: 1.0
数据集:
- 路径: Delta-Vector/Tauri-Opus-Accepted-GPT-Rejected-Opus-Writing-Prompts
拆分: train
类型: chatml.argilla
- 路径: Delta-Vector/Tauri-IFeval-Dans-Tulu-KTO
拆分: train
类型: chatml.argilla
- 路径: Delta-Vector/Tauri-KTO-Instruct-Mix
拆分: train
类型: chatml.argilla
- 路径: Delta-Vector/Tauri-Purpura-Arkhaios-CC-KTO
拆分: train
类型: chatml.argilla
数据集准备路径: last_run_prepared
验证集比例: 0.0
输出目录: ./archaeo-kto-v2
保留未使用列: false
#@lora_mlp_kernel: true
#lora_qkv_kernel: true
#lora_o_kernel: true
适配器: lora
lora模型目录:
序列长度: 8192
填充至序列长度: false
lora_r: 64
lora_alpha: 32
lora_dropout: 0.0
lora_target_linear: true
lora_fan_in_fan_out:
lora目标模块:
- gate_proj
- down_proj
- up_proj
- q_proj
- v_proj
- k_proj
- o_proj
wandb项目: Francois-V2
wandb实体:
wandb监控:
wandb名称: Archaeo-32b-KTO
wandb日志模型:
梯度累积步数: 4
微批次大小: 4
训练轮数: 1
优化器: paged_ademamix_8bit
学习率调度器: constant_with_warmup
学习率: 5e-6
最大梯度范数: 0.001
训练输入数据: false
按长度分组: false
bf16: auto
fp16:
tf32: true
梯度检查点: true
梯度检查点参数:
use_reentrant: true
早停耐心值:
从检查点恢复:
本地排名:
日志步长: 1
xformers注意力:
闪存注意力: true
预热步数: 100
每轮评估次数: 4
评估表大小:
评估最大新标记数: 128
每轮保存次数: 1
调试:
深度速度: ./deepspeed_configs/zero3_bf16.json
权重衰减: 0.0025
fsdp:
fsdp配置:
量化版本:
致谢
特别感谢:Kubernetes-bad, LucyKnada, Kalomaze, Alicat, Intervitens, Samantha Twinkman, Tav, Trappu 以及 Anthracite 团队其他成员