许可证: mit
数据集:
- allura-org/Celeste-Filtered
- allura-org/neon-41k
- EVA-UNIT-01/Lilith-v0.2
语言:
- en
基础模型:
- THUDM/GLM-4-9B-0414
库名称: transformers
图片由 CalamitousFelicitousness 提供
GLM-4-9B-0414 Neon v2
基于 GLM-4-9B-0414 的角色扮演微调模型。体验流畅,个性鲜明,偶尔有些小古怪。文笔优美,既不像 Claude 也不像 Gemini。不过似乎不太喜欢过长的系统提示或角色卡,但对 JSON 格式的系统提示反应良好。
模型由 Auri 训练。
训练笔记
模型在包含 7700 万 tokens 的合成角色扮演和短篇故事生成数据集上训练了一个 epoch。训练耗时约 11 小时,使用了由 OwenArli 慷慨提供的 2xRTX 3090 工作站。训练配置采用了一些合理的默认值,结合 QLoRA 和 CCE 技术显著优化了内存使用,16k 上下文在 48GB 显存下运行良好且有余量。评估/损失值似乎存在问题,原因不明,但训练过程总体顺利。
特别感谢 ArliAI 提供算力支持并参与本次训练协作!
格式
模型遵循基础模型的 GLM4 指令格式。后端通常无法自动添加 BOS token,需手动添加。Jinja 模板适用于聊天补全场景。
[gMASK]<sop><|system|>
{系统提示}<|user|>
{用户输入}<|assistant|>
推荐采样器
无需特殊设置,经典参数即可:
温度 - 1
最小概率 - 0.1
重复惩罚 - 1.03
SillyTavern 示例导入文件(使用 Steelskull 的 Shingane-v1 系统提示)
在 KoboldCPP 等后端运行
正确运行 GGUFs 需使用最新版 KoboldCPP,并通过 CLI 添加 --overridekv glm4.rope.dimension_count=int:64
参数,或在 GUI 的 Tokens 标签页底部 overridekv 框中填入 glm4.rope.dimension_count=int:64
。
感谢 DaringDuck 和 tofumagnate 提供的修复方案。
在 vLLM 上运行需从 git 仓库源码构建,完整 GLM4 支持尚未发布正式版。
基于 ExLLaMAv2/v3 的后端(如 TabbyAPI)应可直接支持该模型。
最新版 llama.cpp 服务器也应支持直接运行 GGUFs。
特别致谢
再次衷心感谢 OwenArli 提供算力资源并协助调参!
感谢 Artus 为模型预发布展示提供免费推理服务!
感谢 BeaverAI 社区成员的反馈和最优参数探索!
训练配置
查看 Axolotl 配置
base_model: /home/owen/models/GLM-4-9B-0414
strict: false
model_type: AutoModelForCausalLM
plugins:
- axolotl.integrations.liger.LigerPlugin
- axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin
liger_rope: false
liger_rms_norm: false
liger_glu_activation: false
liger_fused_linear_cross_entropy: false
cut_cross_entropy: true
output_dir: ./GLM-9B-Neon-v2
hub_model_id: AuriAetherwiing/GLM-9B-Neon-v2-LoRA
hf_use_auth_token: true
hub_strategy: "all_checkpoints"
datasets:
- path: ./Neon/neon.jsonl
type: chat_template
field_messages: conversations
message_field_role: from
message_field_content: value
- path: ./Neon/S2.jsonl
type: chat_template
field_messages: conversations
message_field_role: from
message_field_content: value
- path: ./Neon/SystemChat_subset_filtered_sharegpt_utf8fix.jsonl
type: chat_template
field_messages: conversations
message_field_role: from
message_field_content: value
num_epochs: 1
learning_rate: 1e-5
micro_batch_size: 1
gradient_accumulation_steps: 32
sequence_len: 16384
load_in_4bit: true
bf16: auto
adapter: qlora
lora_r: 64
lora_alpha: 64
lora_dropout: 0.1
flash_attention: true
sample_packing: true