L3.3 GeneticLemonade Unleashed V3 70B
这是一个基于Llama 3.3的70B参数大语言模型,经过SFT+DPO微调,专注于角色驱动的对话和创意内容生成
下载量 119
发布时间 : 5/18/2025
模型简介
实验性发布的创意模型,擅长角色扮演(RP)和情感角色扮演(ERP),提供更长、叙事性强的响应,能准确且主动地描绘角色
模型特点
角色驱动对话
专门针对角色扮演场景优化,能准确描绘角色特征和行为
长文本叙事能力
能生成更长、更具叙事性的响应,适合故事创作和角色发展
SFT+DPO微调
先通过290万token数据集进行监督微调(SFT),再使用1100个高质量样本进行直接偏好优化(DPO)
高温度适应性
相比其他Llama 3模型,支持更高的温度设置(0.9-1.2),增加输出多样性
模型能力
角色扮演对话生成
情感角色扮演(ERP)
创意文本生成
长文本叙事
使用案例
娱乐与创意
角色扮演游戏
为角色扮演游戏提供生动的角色对话和情节发展
生成符合角色设定的长对话和叙事
创意写作辅助
辅助作家进行故事创作和角色开发
提供创意灵感和叙事结构
🚀 基因柠檬水3.0版(GENETIC LEMONADE UNLEASHED v3)
基因柠檬水3.0版是一个实验性的模型版本,基于zerofata/L3.3-GeneticLemonade-Unleashed-70B
进行SFT+DPO QLora微调。该模型旨在擅长基于角色的角色扮演(RP / ERP),能够提供较长且叙事丰富的回复,准确且主动地刻画角色。
🚀 快速开始
本模型是一个实验性版本,是对 zerofata/GeneticLemonade-Unleashed 进行SFT+DPO QLora微调后的成果。它主要用于基于角色的角色扮演(RP / ERP),尚未在冒险故事或大量创意写作上进行测试和训练。该模型旨在提供较长且叙事丰富的回复,能够准确且主动地刻画角色。
✨ 主要特性
- 角色扮演专长:专为基于角色的角色扮演(RP / ERP)设计,能出色地刻画角色。
- 长叙事回复:提供较长且叙事丰富的回复内容。
📚 详细文档
🍺 SillyTavern设置
这些设置并非“最佳”设置,只是一个稳定的基线。值得注意的是,该模型支持比其他L3模型通常建议的更高温度值。
推荐采样器设置
参数 | 取值范围 |
---|---|
温度(Temp) | 0.9 - 1.2 |
最小概率(MinP) | 0.03 - 0.04 |
核采样概率(TopP) | 0.9 - 1.0 |
干燥度(Dry) | 0.8, 1.75, 4 |
指令设置
使用Llama-3-Instruct-Names
,但需要取消勾选“系统与用户相同”。
🔢 量化版本
GGUF
EXL2
🏋️ 训练过程
- SFT阶段:模型首先使用一个包含290万个标记(约750个对话)的小型合成数据集进行监督微调(SFT)。该数据集主要是角色扮演数据,包含少量随机指令/助手数据和创意写作内容。
- DPO阶段:然后,模型使用从SFT数据集中挑选出的约1100个高质量或能证明遵循指令的示例进行直接偏好优化(DPO)训练。被拒绝的样本是使用另一个以不擅长遵循指令而闻名的Llama 3.3微调模型生成的。
Axolotl配置
以下是SFT和DPO阶段的Axolotl配置文件,这些配置未针对成本/性能效率进行优化,实际效果可能因人而异。
SFT 1*H200
# ====================
# MODEL CONFIGURATION
# ====================
base_model: zerofata/L3.3-GeneticLemonade-Unleashed-70B
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer
special_tokens:
pad_token: "<|finetune_right_pad_id|>"
chat_template: llama3
# ====================
# DATASET CONFIGURATION
# ====================
datasets:
- path: ./dataset.jsonl
type: chat_template
split: train
chat_template_strategy: tokenizer
field_messages: messages
message_property_mappings:
role: role
content: content
roles:
user: ["user"]
assistant: ["assistant"]
system: ["system"]
test_datasets:
- path: ./validate_dataset.jsonl
type: chat_template
split: train
chat_template_strategy: tokenizer
field_messages: messages
message_property_mappings:
role: role
content: content
roles:
user: ["user"]
assistant: ["assistant"]
system: ["system"]
dataset_prepared_path:
train_on_inputs: false # Only train on assistant responses
# ====================
# QLORA CONFIGURATION
# ====================
adapter: qlora
load_in_4bit: true
lora_r: 64
lora_alpha: 128
lora_dropout: 0.1
lora_target_linear: true
# lora_modules_to_save: # Uncomment only if you added NEW tokens
# ====================
# TRAINING PARAMETERS
# ====================
num_epochs: 2
micro_batch_size: 4
gradient_accumulation_steps: 2
learning_rate: 1.5e-5
optimizer: paged_adamw_8bit
lr_scheduler: rex
warmup_ratio: 0.05
weight_decay: 0.01
max_grad_norm: 1.0
# ====================
# SEQUENCE & PACKING
# ====================
sequence_len: 8192
sample_packing: true
eval_sample_packing: false
pad_to_sequence_len: true
# ====================
# HARDWARE OPTIMIZATIONS
# ====================
bf16: auto
flash_attention: true
gradient_checkpointing: true
# ====================
# EVALUATION & CHECKPOINTING
# ====================
evaluation_strategy: steps
eval_steps: 5
save_strategy: steps
save_steps: 5
save_total_limit: 5 # Keep best + last few checkpoints
load_best_model_at_end: true
metric_for_best_model: eval_loss
greater_is_better: false
early_stopping_patience: 5
# ====================
# LOGGING & OUTPUT
# ====================
output_dir: ./output_model
logging_steps: 2
save_safetensors: true
# ====================
# WANDB TRACKING
# ====================
wandb_project: project_name
# wandb_entity: your_entity
# wandb_name: your_run_name
DPO 2*H200
# ====================
# MODEL CONFIGURATION
# ====================
base_model: ApocalypseParty/unleashed-fulldata30
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer
special_tokens: {}
chat_template: tokenizer_default
# ====================
# RL/DPO CONFIGURATION
# ====================
rl: dpo
rl_beta: 0.07
# ====================
# DATASET CONFIGURATION
# ====================
datasets:
- path: ./dpo_cleaned-v3_deduplicated.jsonl
type: chat_template.default
field_messages: conversation
field_chosen: chosen
field_rejected: rejected
message_property_mappings:
role: role
content: content
roles:
system: ["system"]
user: ["user"]
assistant: ["assistant"]
dataset_prepared_path:
train_on_inputs: false # Only train on assistant responses
# ====================
# QLORA CONFIGURATION
# ====================
adapter: qlora
load_in_4bit: true
lora_r: 32
lora_alpha: 64
lora_dropout: 0.05
lora_target_linear: true
# lora_modules_to_save: # Uncomment only if you added NEW tokens
# ====================
# TRAINING PARAMETERS
# ====================
num_epochs: 1
micro_batch_size: 4
gradient_accumulation_steps: 2
learning_rate: 2e-6
optimizer: adamw_8bit
lr_scheduler: cosine
warmup_steps: 5
weight_decay: 0.01
max_grad_norm: 1.0
# ====================
# SEQUENCE CONFIGURATION
# ====================
sequence_len: 4096
pad_to_sequence_len: true
# ====================
# HARDWARE OPTIMIZATIONS
# ====================
bf16: auto
tf32: false
flash_attention: true
gradient_checkpointing: offload
deepspeed: deepspeed_configs/zero1.json
# ====================
# CHECKPOINTING
# ====================
save_steps: 10
save_total_limit: 10
load_best_model_at_end: true
metric_for_best_model: eval_loss
greater_is_better: false
# ====================
# LOGGING & OUTPUT
# ====================
output_dir: ./dpo_model
logging_steps: 2
save_safetensors: true
# ====================
# WANDB TRACKING
# ====================
wandb_project: project_name
# wandb_entity: your_entity
# wandb_name: your_run_name
📄 许可证
本模型使用llama3
许可证。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文