L3-8B-Stheno-v3.3-32K开源模型 - 免费部署助力角色扮演与创意写作

首页

L3 8B Stheno V3.3 32K

由 Sao10K 开发

基于Llama-3-8B优化的32K长上下文模型，通过PoSE训练扩展上下文长度，专注于角色扮演和创意写作任务

大型语言模型

Transformers

英语#PoSE扩展32K上下文 #角色扮演优化 #创意写作增强

下载量 541

发布时间 : 6/22/2024

模型简介

该模型是通过PoSE训练方法将8K上下文扩展至32K的Llama-3-8B优化版本，特别强化了角色扮演和创意写作能力，同时保持了基础语言理解能力

模型特点

扩展上下文处理

通过PoSE训练方法将上下文长度从8K扩展至32K，优于常规rope缩放方案

高质量角色扮演

经过深度清理和人工筛选的角色扮演样本，提供优异的交互体验

创意写作增强

创意写作训练样本翻倍，显著提升生成质量

优化训练配置

采用经过调试的最优Rope Theta值(200万)配置，确保训练稳定性

模型能力

长文本生成

角色扮演对话

创意内容创作

指令跟随

上下文理解

使用案例

娱乐与创作

互动式角色扮演

与AI进行沉浸式角色扮演对话

主观体验报告显示交互质量优异

创意写作辅助

生成小说、诗歌等创意文本

训练数据中创意写作样本增加2倍

长文档处理

长文摘要

处理长达32K上下文的文档摘要任务

基础测试显示优于常规rope缩放方案

🚀 L3-8B-Stheno-v3.3-32K模型介绍

本项目是基于特定配置训练的L3-8B-Stheno-v3.3-32K模型，下面将详细介绍该模型的训练情况、相关配置等信息。

📄 许可证

本项目采用CC BY-NC 4.0许可证。

🚀 快速开始

本模型在训练过程中借助了Backyard.ai的计算资源，在此感谢Backyard.ai以及@dynafire的帮助。

🔧 技术细节

训练详情

模型最初在8K上下文环境下进行训练，之后通过PoSE训练将上下文扩展到32K。

数据集修改

角色扮演样本清理：进一步清理了角色扮演样本并进行质量检查。
低质量样本移除：通过人工检查移除了低质量样本，提高了基线质量下限。
创意写作样本增加：创意写作样本数量增加了一倍。
详细指令数据优化：重新制作并优化了详细的指令数据。

注意事项

本次训练比之前的Stheno版本更为温和。
在bf16模式下，使用与文件中相同的配置进行测试时，模型可以正常工作。
目前不清楚量化对该模型的影响。
模型在角色扮演方面表现良好。
在长上下文理解和推理方面存在一些问题，但与常规的rope缩放相比有明显改善。
提醒：该模型并非原生的32K模型，存在一些问题，但整体连贯且工作良好。

合理性检查 // 大海捞针评估结果

该评估不如RULER或NIAN复杂，但可作为基本评估工具。在大多数扩展上下文中，一些不恰当的训练示例的大海捞针得分从红色到橙色不等。

Wandb运行情况

Wandb

相关Axolotl配置

配置参考自winglian/Llama-3-8b-64k-PoSE。
- 经过数小时的调整，发现该配置效果最佳，因此采用了该配置。
- 训练过程中，2M的rope theta在损失结果方面表现最佳。
- 将rope设置为500K时，效果也不错，但4M和8M的theta会使grad_norm值变差，尽管损失下降较快。
- 混入预训练数据会导致格式问题，使效果变差。
- 预训练/噪声也会影响大海捞针评估结果，结果主要为橙色而非全部为绿色。
- 不恰当的rope theta会导致Grad_Norm值急剧上升至数千，即使使用梯度裁剪，其下降速度也非常快，令人担忧。

sequence_len: 8192
use_pose: true
pose_max_context_len: 32768

overrides_of_model_config:
  rope_theta: 2000000.0
  max_position_embeddings: 32768

  # peft_use_dora: true
adapter: lora
peft_use_rslora: true
lora_model_dir:
lora_r: 256
lora_alpha: 256
lora_dropout: 0.1
lora_target_linear: true
lora_target_modules:
  - gate_proj
  - down_proj
  - up_proj
  - q_proj
  - v_proj
  - k_proj
  - o_proj

warmup_steps: 80
gradient_accumulation_steps: 6
micro_batch_size: 1
num_epochs: 2
optimizer: adamw_bnb_8bit
lr_scheduler: cosine_with_min_lr
learning_rate: 0.00004
lr_scheduler_kwargs:
    min_lr: 0.000004