🚀 70B-L3.3-mhnnn-x1
本项目基于transformers
库,以meta-llama/Llama-3.3-70B-Instruct
为基础模型。该模型具有一定的创新性和实用性,在经过一些调整后能输出较为有创意的内容,不过偶尔也会出现一些小问题。
事情进展不顺利时我的精神状态
🚀 快速开始
推荐模型设置
注意,以下是我使用的设置,效果还不错。我甚至不太清楚DRY或其他采样器的工作原理。不过,你的系统提示更为重要。
提示格式:Llama-3-Instruct
温度:1.1
最小概率:0.05
数据类型
完成 - 小说/电子书
文字冒险 - 在系统提示中包含类似“文字冒险叙述者”的细节,给它一个单样本示例,它就能很好地运行。
非道德助手 - 在常规助手提示中包含“非道德”“中立”等术语,以获得更好的结果。
指令/助手 - 常规的助手任务。
角色扮演 - 与往常一样,使用常规设置。
✨ 主要特性
- 与Freya具有相同的数据组成,但应用方式不同。
- 经过一番调试后,能输出较有创意的内容,但偶尔会出现一些小错误,重新生成即可解决。
🔧 技术细节
训练信息
Axolotl配置

查看axolotl配置
axolotl版本:0.6.0
adapter: lora
lora_r: 64
lora_alpha: 64
lora_dropout: 0.2
peft_use_rslora: true
lora_target_linear: true
dataset_prepared_path: dataset_run_freya
datasets:
- path: datasets/eBooks-cleaned-75K
type: completion
- path: datasets/novels-clean-dedupe-10K
type: completion
- path: datasets/10k-amoral-full-fixed-sys.json
type: chat_template
chat_template: llama3
roles_to_train: ["gpt"]
field_messages: conversations
message_field_role: from
message_field_content: value
train_on_eos: turn
- path: datasets/44k-hespera-smartshuffle.json
type: chat_template
chat_template: llama3
roles_to_train: ["gpt"]
field_messages: conversations
message_field_role: from
message_field_content: value
train_on_eos: turn
- path: datasets/5k_rpg_adventure_instruct-sys.json
type: chat_template
chat_template: llama3
roles_to_train: ["gpt"]
field_messages: conversations
message_field_role: from
message_field_content: value
train_on_eos: turn
shuffle_merged_datasets: true
warmup_ratio: 0.1
plugins:
- axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_layer_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true
num_epochs: 1
sample_packing: true
pad_to_sequence_len: true
train_on_inputs: false
group_by_length: false
gradient_accumulation_steps: 4
micro_batch_size: 2
gradient_checkpointing: unsloth
val_set_size: 0.025
evals_per_epoch: 5
eval_table_size:
eval_max_new_tokens: 256
eval_sample_packing: false
eval_batch_size: 1
optimizer: paged_ademamix_8bit
lr_scheduler: cosine
learning_rate: 0.00000242
weight_decay: 0.2
max_grad_norm: 10.0
gc_steps: 10
deepspeed: ./deepspeed_configs/zero3_bf16.json
📄 许可证
本模型的许可证为llama3.3
。
📋 模型信息
属性 |
详情 |
模型名称 |
70B-L3.3-mhnnn-x1 |
基础模型 |
meta-llama/Llama-3.3-70B-Instruct |
库名称 |
transformers |
许可证 |
llama3.3 |