基础模型:
- inflatebot/MN-12B-Mag-Mell-R1
- TheDrummer/UnslopNemo-12B-v4.1
- ArliAI/Mistral-Nemo-12B-ArliAI-RPMax-v1.2
- DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS
库名称: transformers
标签:
- mergekit
- 合并
- 12b
- 聊天
- 角色扮演
- 创意写作
- DELLA-linear
许可证: apache-2.0
新版本: redrix/AngelSlayer-12B-Unslop-Mell-RPMax-DARKNESS-v2
AngelSlayer-12B-Unslop-Mell-RPMax-DARKNESS
传说'祂'将带来末日。她寻求理解,而非毁灭。
这是使用mergekit合并预训练语言模型的成果。
这是我的第四个模型。我想测试della_linear方法。该模型旨在利用DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS的负面特性来抵消潜在的乐观偏见,同时保持稳定性。
测试阶段: 进行中
(2024年12月18日): 模型在长上下文中的表现非常稳定,能很好地保持角色/提示特征。其文风多变且富有扩展性,基本避免了GPT式的套路化表达。唯一问题是模型似乎总是以相似方式解读输入(可能源于self_attn层)。因此输出总会趋向某个特定主题/方向,即使每次划动生成的措辞不同(响应越长,开头设定的方向偏离越大)。有个奇特现象是错误可预测——如果模型错误拼写用户名字(如字母乱序;我的名字本身较复杂),后续划动中该名字实例必定会重复拼写错误。但能自动修正。若名字首次出现拼写错误,后续实例会被修正。重复率低,出现时可启用DRY改善。暂未发现模式固着问题。较高温度值(1.25)效果更佳。有时能生成令人惊艳的回答。XTC可显著提升质量且不降低智能——但我尚未明确区分中性采样器与XTC的响应差异。若发现模型生成无意义划动,可在输入末尾添加字符干扰输出(如星号,或无关句子)。
编辑: 划动响应趋同的问题可能源于inflatebot/MN-12B-Mag-Mell-R1。考虑降低其权重/通过将ArliAI/Mistral-Nemo-12B-ArliAI-RPMax-v1.2设为末位模型来平衡(DELLA-Linear中配置靠后的模型影响更大)。或可尝试用inflatebot/MN-12B-Mag-Mell-R1的基础模型通过不同合并方法重新融合以缓解此问题。
参数设置
- 上下文长度: 建议不超过20k——连贯性可能下降
- 对话模板: ChatML
- 采样器: Temperature-Last 1-1.25与Min-P 0.1-0.25可用但未调优。出现重复时启用DRY。XTC效果良好
量化版本
合并详情
合并方法
本模型采用della_linear方法合并,以TheDrummer/UnslopNemo-12B-v4.1为基础。
合并模型
合并包含以下模型:
配置
生成本模型的YAML配置如下:
models:
- model: TheDrummer/UnslopNemo-12B-v4.1
parameters:
weight: 0.25
density: 0.6
- model: ArliAI/Mistral-Nemo-12B-ArliAI-RPMax-v1.2
parameters:
weight: 0.25
density: 0.6
- model: DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS
parameters:
weight: 0.2
density: 0.4
- model: inflatebot/MN-12B-Mag-Mell-R1
parameters:
weight: 0.30
density: 0.7
base_model: TheDrummer/UnslopNemo-12B-v4.1
merge_method: della_linear
dtype: bfloat16
chat_template: "chatml"
tokenizer_source: union
parameters:
normalize: false
int8_mask: true
epsilon: 0.05
lambda: 1
今日我们奔波,'日我们劳碌,但今夜我们狂欢。