语言:
- 英语
许可证: Apache-2.0
库名称: transformers
标签:
- mergekit
- 合并
基础模型:
- unsloth/Mistral-Small-24B-Base-2501
- unsloth/Mistral-Small-24B-Instruct-2501
- trashpanda-org/MS-24B-Instruct-Mullein-v0
- trashpanda-org/Llama3-24B-Mullein-v1
- ArliAI/Mistral-Small-24B-ArliAI-RPMax-v1.4
- TheDrummer/Cydonia-24B-v2
- estrogen/MS2501-24b-Ink-apollo-ep2
- huihui-ai/Mistral-Small-24B-Instruct-2501-abliterated
- ToastyPigeon/ms3-roselily-rp-v2
- PocketDoc/Dans-DangerousWinds-V1.1.1-24b
- ReadyArt/Forgotten-Safeword-24B-V2.2
概述
Tantum 合并过程中的一个步骤。可能比最终结果更好。
模型文件可能无法下载
你可以从这里获取完整的权重文件:https://huggingface.co/mergekit-community/MS-RP-whole
出现这种情况是因为我使用了 mergekit-gui 空间进行合并,懒得手动将中间步骤拖到我的组织,所以我直接设置为上传到 mergekit-community。当我发现这个东西可以单独使用时,我决定在模型卡片中添加一些信息,并在链接到 Tantum 的 readme 文件之前在这里复制了仓库。
是的。
设置:
采样器: 奇怪预设 | Forgotten-Safeword 预设
提示格式: Mistral-V7-Tekken (?)
我使用 这个 知识库进行所有聊天,而不是为 Mistral 模型使用系统提示。
量化版本
静态 | Imatrix
合并详情
合并步骤
MS3-test-Merge-1
模型:
- 模型: unsloth/Mistral-Small-24B-Base-2501
- 模型: unsloth/Mistral-Small-24B-Instruct-2501+ToastyPigeon/new-ms-rp-test-ws
参数:
select_topk:
- 值: [0.05, 0.03, 0.02, 0.02, 0.01]
- 模型: unsloth/Mistral-Small-24B-Instruct-2501+estrogen/MS2501-24b-Ink-ep2-adpt
参数:
select_topk: 0.1
- 模型: trashpanda-org/MS-24B-Instruct-Mullein-v0
参数:
select_topk: 0.4
基础模型: unsloth/Mistral-Small-24B-Base-2501
合并方法: sce
参数:
int8_mask: true
rescale: true
normalize: true
数据类型: bfloat16
分词器来源: base
数据类型: bfloat16
分词器来源: base
合并方法: della_linear
参数:
密度: 0.55
基础模型: Step1
模型:
- 模型: unsloth/Mistral-Small-24B-Instruct-2501
参数:
权重:
- 过滤器: v_proj
值: [0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0]
- 过滤器: o_proj
值: [1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1]
- 过滤器: up_proj
值: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
- 过滤器: gate_proj
值: [0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0]
- 过滤器: down_proj
值: [1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]
- 值: 0
- 模型: Step1
参数:
权重:
- 过滤器: v_proj
值: [1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1]
- 过滤器: o_proj
值: [0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0]
- 过滤器: up_proj
值: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
- 过滤器: gate_proj
值: [1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1]
- 过滤器: down_proj
值: [0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1]
- 值: 1
早期的 MS3 合并。单独使用并不值得。只是为了好玩才添加的。
RP-half1
模型:
- 模型: ArliAI/Mistral-Small-24B-ArliAI-RPMax-v1.4
参数:
权重: 0.2
密度: 0.7
- 模型: trashpanda-org/Llama3-24B-Mullein-v1
参数:
权重: 0.2
密度: 0.7
- 模型: TheDrummer/Cydonia-24B-v2
参数:
权重: 0.2
密度: 0.7
合并方法: della_linear
基础模型: Nohobby/MS3-test-Merge-1
参数:
epsilon: 0.2
lambda: 1.1
数据类型: bfloat16
分词器:
来源: base
RP-half2
基础模型: Nohobby/MS3-test-Merge-1
参数:
epsilon: 0.05
lambda: 0.9
int8_mask: true
rescale: true
normalize: false
数据类型: bfloat16
分词器:
来源: base
合并方法: della
模型:
- 模型: estrogen/MS2501-24b-Ink-apollo-ep2
参数:
权重: [0.1, -0.01, 0.1, -0.02, 0.1]
密度: [0.6, 0.4, 0.5, 0.4, 0.6]
- 模型: huihui-ai/Mistral-Small-24B-Instruct-2501-abliterated
参数:
权重: [0.02, -0.01, 0.02, -0.02, 0.01]
密度: [0.45, 0.55, 0.45, 0.55, 0.45]
- 模型: ToastyPigeon/ms3-roselily-rp-v2
参数:
权重: [0.01, -0.02, 0.02, -0.025, 0.01]
密度: [0.45, 0.65, 0.45, 0.65, 0.45]
- 模型: PocketDoc/Dans-DangerousWinds-V1.1.1-24b
参数:
权重: [0.1, -0.01, 0.1, -0.02, 0.1]
密度: [0.6, 0.4, 0.5, 0.4, 0.6]
RP-broth/MS-RP-whole
基础模型: ReadyArt/Forgotten-Safeword-24B-V2.2
合并方法: model_stock
数据类型: bfloat16
模型:
- 模型: mergekit-community/MS3-RP-half1
- 模型: mergekit-community/MS3-RP-RP-half2