许可证: 其他
标签:
- 训练生成
- google/gemma
- PyTorch
- transformers
- trl
- peft
- tensorboard
模型索引:
- 名称: pygemma-2b-ultra-plus-4
结果: []
数据集:
- Vezora/Tested-143k-Python-Alpaca
语言:
- 英语
许可证名称: gemma使用条款
许可证链接: https://ai.google.dev/gemma/terms
基础模型: google/gemma-2b
小部件:
- 示例标题: 计算求和
消息:
- 角色: 系统
内容: 欢迎使用PyGemma,您的AI驱动的Python助手。我在这里帮助您解答关于Python编程语言的常见问题。让我们一起深入Python世界!
- 角色: 用户
内容: 创建一个函数来计算一系列整数的和。
管道标签: 文本生成
模型卡片: pygemma-2b-ultra-plus-4
🐍💬🤖
pygemma-2b-ultra-plus-4 是一个经过训练的语言模型,旨在作为Python助手使用。它是基于 google/gemma-2b 微调的版本,使用 SFTTrainer
在公开数据集 Vezora/Tested-143k-Python-Alpaca 上进行训练。
训练指标
训练指标可在 TensorBoard 上查看。
训练超参数
训练过程中使用了以下超参数:
-
输出目录: peft-lora-model
-
覆盖输出目录: 是
-
执行训练: 否
-
执行评估: 否
-
执行预测: 否
-
评估策略: 无
-
仅预测损失: 否
-
每设备训练批量大小: 2
-
每设备评估批量大小: 无
-
每GPU训练批量大小: 无
-
每GPU评估批量大小: 无
-
梯度累积步数: 4
-
评估累积步数: 无
-
评估延迟: 0
-
学习率: 2e-05
-
权重衰减: 0.0
-
Adam beta1: 0.9
-
Adam beta2: 0.999
-
Adam epsilon: 1e-08
-
最大梯度范数: 0.3
-
训练轮数: 1
-
最大步数: -1
-
学习率调度器类型: 余弦
-
学习率调度器参数: {}
-
预热比例: 0.1
-
预热步数: 0
-
日志级别: 被动
-
副本日志级别: 警告
-
每个节点记录日志: 是
-
日志目录: peft-lora-model/runs/Mar23_06-23-59_676c0e3f20e7
-
日志策略: 步数
-
首次步数记录: 否
-
日志步数间隔: 10
-
日志过滤NaN/Inf: 是
-
保存策略: 轮次
-
保存步数间隔: 500
-
保存总数限制: 无
-
保存安全张量: 是
-
每个节点保存: 否
-
仅保存模型: 否
-
禁用CUDA: 否
-
使用CPU: 否
-
使用MPS设备: 否
-
随机种子: 42
-
数据随机种子: 无
-
JIT评估模式: 否
-
使用IPEX: 否
-
BF16: 是
-
FP16: 否
-
FP16优化级别: O1
-
半精度后端: 自动
-
BF16全评估: 否
-
FP16全评估: 否
-
TF32: 无
-
本地排名: 0
-
DDP后端: 无
-
TPU核心数: 无
-
TPU指标调试: 否
-
调试: []
-
数据加载器丢弃最后批次: 否
-
评估步数: 无
-
数据加载器工作线程数: 0
-
数据加载器预取因子: 无
-
过去索引: -1
-
运行名称: peft-lora-model
-
禁用tqdm: 否
-
移除未使用列: 是
-
标签名称: 无
-
结束时加载最佳模型: 否
-
最佳模型指标: 无
-
越大越好: 无
-
忽略数据跳过: 否
-
FSDP: []
-
FSDP最小参数数: 0
-
FSDP配置: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
-
FSDP转换器层类包装: 无
-
加速器配置: AcceleratorConfig(split_batches=False, dispatch_batches=None, even_batches=True, use_seedable_sampler=True)
-
DeepSpeed: 无
-
标签平滑因子: 0.0
-
优化器: adamw_torch_fused
-
优化器参数: 无
-
Adafactor: 否
-
按长度分组: 否
-
长度列名: length
-
报告至: ['tensorboard']
-
DDP查找未使用参数: 无
-
DDP桶容量MB: 无
-
DDP广播缓冲区: 无
-
数据加载器固定内存: 是
-
数据加载器持久工作线程: 否
-
跳过内存指标: 是
-
使用旧版预测循环: 否
-
推送至Hub: 否
-
从检查点恢复: 无
-
Hub模型ID: 无
-
Hub策略: 每次保存
-
Hub令牌: 无
-
Hub私有仓库: 否
-
Hub总是推送: 否
-
梯度检查点: 是
-
梯度检查点参数: {'use_reentrant': False}
-
包含指标输入: 否
-
FP16后端: 自动
-
推送至Hub模型ID: 无
-
推送至Hub组织: 无
-
推送至Hub令牌: 无
-
MP参数:
-
自动查找批量大小: 否
-
完全确定性: 否
-
TorchDynamo: 无
-
Ray范围: 最后
-
DDP超时: 1800
-
Torch编译: 否
-
Torch编译后端: 无
-
Torch编译模式: 无
-
分发批次: 无
-
分割批次: 无
-
包含每秒令牌数: 否
-
包含已见输入令牌数: 否
-
NEFTune噪声alpha: 无
-
分布式状态: 分布式环境: 否
进程数: 1
进程索引: 0
本地进程索引: 0
设备: cuda
-
_n_gpu: 1
-
__cached__setup_devices: cuda:0
-
DeepSpeed插件: 无