库名称:transformers
许可证:apache-2.0
基础模型:Dans-DiscountModels/Mistral-Small-3.1-24B-Base-2503-hf-DanChat
标签:
- axolotl
- 训练生成
数据集:
- Dans-DiscountModels/pretokenization-test-6
模型索引:
- 名称:24b-ms-dans-personality-engine-v1.3.0-TestArticle-1
结果:[]

查看axolotl配置
axolotl版本:0.10.0.dev0
基础模型:Dans-DiscountModels/Mistral-Small-3.1-24B-Base-2503-hf-DanChat
模型类型:AutoModelForCausalLM
分词器类型:AutoTokenizer
远程代码信任:
wandb项目:24b-ms-dans-personality-engine
wandb监控:
wandb运行ID:V1.3.0-1-5
wandb记录模型:
中心模型ID:Dans-DiscountModels/24b-ms-dans-personality-engine-v1.3.0-TestArticle-1
推送策略:"every_save"
hf使用认证令牌:true
输出目录:./24b-ms-dans-personality-engine
保存为安全张量:true
数据集:
- 路径:Dans-DiscountModels/pretokenization-test-6
数据集类型:parquet
类型:
插件:
- axolotl.integrations.liger.LigerPlugin
- axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin
liger_rope:true
liger_rms_norm:true
liger_layer_norm:true
liger_glu_activation:true
liger_fused_linear_cross_entropy:false
cut_cross_entropy:true
8位加载:false
4位加载:false
严格模式:false
适配器:
lora模型目录:
预处理数据集路径:./24b-ms-dans-personality-engine
验证集比例:0.0
序列长度:33000
样本打包:true
评估样本打包:true
填充至序列长度:true
梯度检查点:true
梯度累积步数:4
微批次大小:1
训练轮数:2
优化器:ademamix_8bit
优化参数:"beta1=0.9,beta2=0.999,beta3=0.999,alpha=5"
学习率调度器:rex
学习率:0.000001
余弦最小学习率比例:
最大梯度范数:0.001
训练输入:false
按长度分组:false
bf16:true
fp16:false
tf32:false
早停耐心:
从检查点恢复:
自动恢复检查点:false
本地排名:
日志步长:1
xformers注意力:
闪存注意力:true
预热比例:0.1
每轮评估次数:24
评估表大小:
评估最大新标记数:
每轮保存次数:4
保存总数限制:1
调试:false
深度速度:deepspeed_configs/zero3_bf16.json
fsdp:
fsdp配置:
特殊标记:
24b-ms-dans-personality-engine-v1.3.0-TestArticle-1
本模型是基于Dans-DiscountModels/Mistral-Small-3.1-24B-Base-2503-hf-DanChat在Dans-DiscountModels/pretokenization-test-6数据集上微调的版本。
模型描述
(待补充详细信息)
预期用途与限制
(待补充详细信息)
训练与评估数据
(待补充详细信息)
训练流程
训练超参数
训练中使用的超参数如下:
- 学习率:1e-06
- 训练批次大小:1
- 评估批次大小:1
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:8
- 梯度累积步数:4
- 总训练批次大小:32
- 总评估批次大小:8
- 优化器:使用ademamix_8bit,参数为:beta1=0.9,beta2=0.999,beta3=0.999,alpha=5
- 学习率调度器类型:cosine
- 学习率预热步数:338
- 训练轮数:2.0
训练结果
(待补充)
框架版本
- Transformers 4.51.3
- Pytorch 2.4.1+cu121
- Datasets 3.5.1
- Tokenizers 0.21.1