库名称:transformers
许可证:apache-2.0
基础模型:Qwen/Qwen2.5-7B
标签:
- generated_from_trainer
语言:
- 中文
- 英语
- 法语
- 西班牙语
- 葡萄牙语
- 德语
- 意大利语
- 俄语
- 日语
- 韩语
- 越南语
- 泰语
- 阿拉伯语
模型索引:

查看axolotl配置
axolotl版本:0.4.1
基础模型:Qwen/Qwen2.5-7B
模型类型:AutoModelForCausalLM
分词器类型:AutoTokenizer
8位加载:false
4位加载:false
严格模式:false
数据集:
- 路径:PocketDoc/Dans-MemoryCore-CoreCurriculum-Small
类型:sharegpt
对话:chatml
- 路径:NewEden/Kalo-Opus-Instruct-22k-Refusal-Murdered
类型:sharegpt
对话:chatml
- 路径:Epiculous/Synthstruct-Gens-v1.1-Filtered-n-Cleaned
类型:sharegpt
对话:chatml
- 路径:NewEden/Gryphe-Sonnet-3.5-35k-Subset
类型:sharegpt
对话:chatml
- 路径:Nitral-AI/Reasoning-1shot_ShareGPT
类型:sharegpt
对话:chatml
- 路径:Nitral-AI/GU_Instruct-ShareGPT
类型:sharegpt
对话:chatml
- 路径:Nitral-AI/Medical_Instruct-ShareGPT
类型:sharegpt
对话:chatml
- 路径:AquaV/Resistance-Sharegpt
类型:sharegpt
对话:chatml
- 路径:AquaV/US-Army-Survival-Sharegpt
类型:sharegpt
对话:chatml
- 路径:Gryphe/Sonnet3.5-SlimOrcaDedupCleaned
类型:sharegpt
对话:chatml
对话模板:chatml
验证集比例:0.002
输出目录:./outputs/out
适配器:
lora_r:
lora_alpha:
lora_dropout:
lora_target_linear:
序列长度:8192
样本打包:true
评估样本打包:false
填充至序列长度:true
插件:
- axolotl.integrations.liger.LigerPlugin
liger_rope:true
liger_rms_norm:true
liger_swiglu:true
liger_fused_linear_cross_entropy:true
wandb项目:qwen7B
wandb实体:
wandb监控:
wandb名称:qwen7B
wandb记录模型:
梯度累积步数:32
微批次大小:1
训练轮数:2
优化器:adamw_bnb_8bit
学习率调度器:cosine
学习率:0.00001
权重衰减:0.05
训练输入:false
按长度分组:false
bf16:auto
fp16:
tf32:true
梯度检查点:true
早停耐心:
从检查点恢复:
本地排名:
日志步数:1
xformers注意力:
闪存注意力:true
预热比例:0.1
每轮评估次数:4
评估表大小:
评估最大新标记数:128
每轮保存次数:2
调试:
deepspeed:
fsdp:
fsdp配置:
特殊标记:
填充标记:<pad>
outputs/out
此模型是基于Qwen/Qwen2.5-7B在None数据集上微调的版本。
在评估集上达到以下结果:
模型描述
需要更多信息
预期用途与限制
需要更多信息
训练与评估数据
需要更多信息
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:1e-05
- 训练批次大小:1
- 评估批次大小:1
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:4
- 梯度累积步数:32
- 总训练批次大小:128
- 总评估批次大小:4
- 优化器:Adam,参数betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:cosine
- 学习率预热步数:46
- 训练轮数:2
训练结果
训练损失 |
训练轮数 |
步数 |
验证损失 |
1.0297 |
0.0043 |
1 |
1.1468 |
0.8512 |
0.2515 |
58 |
0.8729 |
0.8496 |
0.5030 |
116 |
0.8193 |
0.8175 |
0.7546 |
174 |
0.8033 |
0.7868 |
1.0041 |
232 |
0.7961 |
0.8119 |
1.2555 |
290 |
0.7934 |
0.799 |
1.5069 |
348 |
0.7926 |
0.7891 |
1.7583 |
406 |
0.7923 |
框架版本
- Transformers 4.45.0.dev0
- Pytorch 2.4.0+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1