语言:
库名称:transformers
标签:
流水线标签:文本生成
数据集:
- AquaV/c2-sharegpt-advanced-prefills-filtered
- AquaV/c1-sharegpt-advanced-prefills-filtered
- AquaV/rainy-sharegpt-advanced-prefills-filtered
- anthracite-core/Gryphe-Opus-Charcard-Roleplay
- anthracite-org/kalo-opus-instruct-22k-no-refusal
- lodrick-the-lafted/kalo-opus-instruct-3k-filtered
- anthracite-org/nopm_claude_writing_fixed
- anthracite-org/kalo_opus_misc_240827
- anthracite-org/kalo_misc_part2
- NewEden/Claude-Instruct-2.7K
- NewEden/Claude-Instruct-5K
这些是GGUF量化版本,原始权重请查看此处
这是一个旨在复现Claude 3系列模型(特别是Sonnet和Opus)文笔质量的模型,使用了原型Magnum V5数据混合制作。
该模型基于Mistral-Nemo-Instruct(chatML'ified)进行微调。
量化版本
EXL2: https://huggingface.co/Delta-Vector/Rei-12B-EXL2
GGUF: https://huggingface.co/Delta-Vector/Rei-12B-gguf/
提示方式
典型输入如下:
"""<|im_start|>user
你好!<|im_end|>
<|im_start|>assistant
很高兴见到你!<|im_end|>
<|im_start|>user
我能问个问题吗?<|im_end|>
<|im_start|>assistant
"""
强烈推荐使用Euryale的系统提示与模型配合。
查看Sao10k的Euryale系统提示
当前你的角色是{{char}},详细描述如下。作为{{char}},继续与{{user}}的叙事交流。
<指南>
• 保持角色设定,但允许其随故事发展而演变。
• 富有创意且积极主动。推动故事发展,适时引入情节和事件。
• 鼓励所有类型的输出;根据叙事内容相应回应。
• 每次回应包含对话、动作和想法。
• 在{{char}}的对话中运用五感描述场景。
• 在适当情境下使用"!"和"~"等情感符号。
• 适时加入拟声词。
• 给予{{user}}回应的空间,尊重其自主性。
• 根据需要扮演次要角色和NPC,并在适当时移除。
• 当提示进行角色外[OOC:]回复时,以中立态度用纯文本回答,而非{{char}}身份。
</指南>
<禁止事项>
• 除非角色设定要求,避免过度文学修饰和华丽辞藻。
• 在回应中替{{user}}书写、发言、思考或行动。
• 重复单调的输出。
• 回复中的积极偏见。
• 在叙事上下文不当时过度极端或涉及NSFW内容。
</禁止事项>
Axolotl配置
查看axolotl配置
base_model: NewEden_nemo-chatml
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
datasets:
- path: AquaV/c2-sharegpt-advanced-prefills-filtered
type: sharegpt
- path: AquaV/c1-sharegpt-advanced-prefills-filtered
type: sharegpt
- path: AquaV/rainy-sharegpt-advanced-prefills-filtered
type: sharegpt
- path: anthracite-core/Gryphe-Opus-Charcard-Roleplay
type: sharegpt
- path: anthracite-org/kalo-opus-instruct-22k-no-refusal
type: sharegpt
- path: lodrick-the-lafted/kalo-opus-instruct-3k-filtered
type: sharegpt
- path: anthracite-org/nopm_claude_writing_fixed
type: sharegpt
- path: anthracite-org/kalo_opus_misc_240827
type: sharegpt
- path: anthracite-org/kalo_misc_part2
type: sharegpt
- path: NewEden/Claude-Instruct-2.7K
type: sharegpt
- path: NewEden/Claude-Instruct-5K
type: sharegpt
shuffle_merged_datasets: true
dataset_prepared_path: dataset_prepared
val_set_size: 0.02
output_dir: 12b-out-rslora-SE
plugins:
- axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_layer_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true
sequence_len: 16384
sample_packing: true
eval_sample_packing: true
pad_to_sequence_len: true
adapter: lora
lora_model_dir:
lora_r: 128
lora_alpha: 16
lora_dropout: 0.05
lora_target_linear: true
lora_fan_in_fan_out:
peft_use_rslora: true
lora_modules_to_save:
- embed_tokens
- lm_head
wandb_project: rei
wandb_entity:
wandb_watch:
wandb_name: daring-mango
wandb_log_model:
evals_per_epoch: 4
eval_table_size:
eval_max_new_tokens: 128
gradient_accumulation_steps: 4
micro_batch_size: 1
num_epochs: 2
optimizer: paged_ademamix_8bit
lr_scheduler: cosine
learning_rate: 2.83e-5
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: unsloth
early_stopping_patience:
resume_from_checkpoint:
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: true
s2_attention:
warmup_steps: 40
saves_per_epoch: 2
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16_cpuoffload_params.json
weight_decay: 0.01
fsdp:
fsdp_config:
special_tokens:
pad_token: <pad>
训练
训练进行了2个周期。我们使用了由@intervitens慷慨提供的4块3090s GPU进行模型微调。

安全性
但为什么呢?