库名称: transformers
许可证: mit
基础模型: THUDM/GLM-4-32B-Base-0414
标签:
- axolotl
- generated_from_trainer
数据集:
- Dans-DiscountModels/pretokenization-test-4
模型索引:
- 名称: 32b-glm4-dans-personality-engine-v1.3.0-TestArticle-1
结果: []

查看axolotl配置
axolotl版本: 0.10.0.dev0
基础模型: THUDM/GLM-4-32B-Base-0414
模型类型: AutoModelForCausalLM
分词器类型: AutoTokenizer
信任远程代码:
wandb项目: 32b-glm4-dans-personality-engine
wandb监控:
wandb运行ID: V1.3.0-1-4
wandb记录模型:
hub模型ID: Dans-DiscountModels/32b-glm4-dans-personality-engine-v1.3.0-TestArticle-1
hub策略: "every_save"
hf_use_auth_token: true
输出目录: ./32b-glm4-dans-personality-engine
保存安全张量: true
数据集:
- 路径: Dans-DiscountModels/pretokenization-test-4
ds类型: parquet
类型:
插件:
- axolotl.integrations.liger.LigerPlugin
- axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin
liger_rope: false
liger_rms_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: false
cut_cross_entropy: true
8位加载: false
4位加载: false
严格模式: false
数据集准备路径: ./32b-glm4-dans-personality-engine-data
验证集大小: 0.003
序列长度: 32768
样本打包: true
评估样本打包: true
填充至序列长度: true
梯度检查点: unsloth
梯度累积步数: 4
微批次大小: 1
训练轮数: 2
优化器: ademamix_8bit
优化参数: "beta1=0.9,beta2=0.999,beta3=0.999,alpha=5"
学习率调度器: rex
学习率: 0.000008
余弦最小学习率比例:
权重衰减: 0
最大梯度范数: 0.001
训练输入: false
按长度分组: false
bf16: true
fp16: false
tf32: false
早停耐心:
从检查点恢复:
自动从检查点恢复: false
本地排名:
日志步数: 1
xformers注意力:
闪光注意力: true
预热比例: 0.1
每轮评估次数: 24
评估表大小:
评估最大新标记数:
每轮保存次数: 8
保存总数限制: 1
调试: false
深度速度: /alloc/pocketdoc/axolotl/deepspeed_configs/zero3_bf16.json
fsdp:
fsdp配置:
特殊标记:
32b-glm4-dans-personality-engine-v1.3.0-TestArticle-1
此模型是基于THUDM/GLM-4-32B-Base-0414在Dans-DiscountModels/pretokenization-test-4数据集上微调的版本。
在评估集上取得了以下结果:
模型描述
需要更多信息
预期用途与限制
需要更多信息
训练与评估数据
需要更多信息
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率: 8e-06
- 训练批次大小: 1
- 评估批次大小: 1
- 随机种子: 42
- 分布式类型: 多GPU
- 设备数量: 8
- 梯度累积步数: 4
- 总训练批次大小: 32
- 总评估批次大小: 8
- 优化器: 使用ademamix_8bit,参数为:
beta1=0.9,beta2=0.999,beta3=0.999,alpha=5
- 学习率调度器类型: 余弦
- 学习率调度器预热步数: 332
- 训练轮数: 2.0
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
1.6456 |
0.0006 |
1 |
1.7604 |
1.6538 |
0.0421 |
70 |
1.7472 |
1.668 |
0.0842 |
140 |
1.7132 |
1.5877 |
0.1264 |
210 |
1.6934 |
1.7524 |
0.1685 |
280 |
1.6815 |
1.6687 |
0.2106 |
350 |
1.6738 |
1.7986 |
0.2527 |
420 |
1.6691 |
1.8379 |
0.2948 |
490 |
1.6659 |
1.6813 |
0.3369 |
560 |
1.6633 |
1.6749 |
0.3791 |
630 |
1.6607 |
1.5746 |
0.4212 |
700 |
1.6585 |
1.7503 |
0.4633 |
770 |
1.6565 |
1.6143 |
0.5054 |
840 |
1.6545 |
1.6 |
0.5475 |
910 |
1.6527 |
1.7525 |
0.5897 |
980 |
1.6510 |
1.5861 |
0.6318 |
1050 |
1.6493 |
1.7439 |
0.6739 |
1120 |
1.6477 |
1.6129 |
0.7160 |
1190 |
1.6464 |
1.4729 |
0.7581 |
1260 |
1.6454 |
1.6923 |
0.8002 |
1330 |
1.6451 |
1.6498 |
0.8424 |
1400 |
1.6441 |
1.5815 |
0.8845 |
1470 |
1.6429 |
1.6209 |
0.9266 |
1540 |
1.6418 |
1.6685 |
0.9687 |
1610 |
1.6408 |
1.7472 |
1.0108 |
1680 |
1.6397 |
1.5719 |
1.0529 |
1750 |
1.6386 |
1.7247 |
1.0951 |
1820 |
1.6377 |
1.7098 |
1.1372 |
1890 |
1.6367 |
1.6367 |
1.1793 |
1960 |
1.6358 |
1.7014 |
1.2214 |
2030 |
1.6349 |
1.6622 |
1.2635 |
2100 |
1.6340 |
1.5958 |
1.3057 |
2170 |
1.6331 |
1.59 |
1.3478 |
2240 |
1.6322 |
1.6959 |
1.3899 |
2310 |
1.6314 |
1.6595 |
1.4320 |
2380 |
1.6308 |
1.6163 |
1.4741 |
2450 |
1.6300 |
1.6593 |
1.5162 |
2520 |
1.6292 |
1.7528 |
1.5584 |
2590 |
1.6285 |
1.6423 |
1.6005 |
2660 |
1.6279 |
1.5997 |
1.6426 |
2730 |
1.6272 |
1.6696 |
1.6847 |
2800 |
1.6266 |
1.7232 |
1.7268 |
2870 |
1.6260 |
1.5094 |
1.7690 |
2940 |
1.6254 |
1.853 |
1.8111 |
3010 |
1.6249 |
1.756 |
1.8532 |
3080 |
1.6245 |
1.705 |
1.8953 |
3150 |
1.6240 |
1.6894 |
1.9374 |
3220 |
1.6237 |
1.5937 |
1.9795 |
3290 |
1.6235 |
框架版本
- Transformers 4.51.3
- Pytorch 2.4.1+cu121
- Datasets 3.5.0
- Tokenizers 0.21.1