Legion-V2.2-LLaMa-70B开源预训练语言模型 - 融合多模型满足多样文本需求

首页

Legion V2.2 LLaMa 70B

由 TareksTesting 开发

使用 DARE TIES 方法合并的预训练语言模型，基于 L-BASE-V1 融合多个 MERGE 模型

大型语言模型

Transformers

#DARE-TIES合并 #多模型融合 #参数加权混合

下载量 24

发布时间 : 3/24/2025

模型简介

该模型是通过 mergekit 工具合并多个预训练语言模型的结果，采用 DARE TIES 合并方法，旨在结合各模型的优势提升整体性能。

模型特点

DARE TIES 合并方法

采用先进的 DARE TIES 模型合并技术，有效整合多个模型的参数

模块化权重分配

针对 self_attn 和 mlp 等不同模块分别设置权重参数

参数密度控制

通过 density 参数控制模型参数的保留比例

模型能力

文本生成

语言理解

使用案例

自然语言处理

文本生成

可用于生成连贯、流畅的文本内容

问答系统

应用于构建问答系统，回答用户提出的问题

🚀 预训练语言模型合并项目

本项目使用 mergekit 工具对预训练语言模型进行合并，旨在结合不同模型的优势，提升整体性能。

🚀 快速开始

本合并模型基于以下基础模型创建：

TareksLab/L2-MERGE2a
TareksLab/L2-MERGE4
TareksLab/L-BASE-V1
TareksLab/L2-MERGE3
TareksLab/L2-MERGE1 使用的库为 transformers，标签包含 mergekit 和 merge。

✨ 主要特性

本项目通过合并多个预训练语言模型，实现了模型能力的整合与提升。使用了特定的合并方法和配置，以确保合并后的模型具有良好的性能。

📚 详细文档

合并详情

合并方法

本模型采用 DARE TIES 合并方法，以 TareksLab/L-BASE-V1 为基础模型进行合并。

参与合并的模型

以下模型参与了本次合并：

配置

以下是用于生成此模型的 YAML 配置：

models:
  - model: TareksLab/L2-MERGE4
    parameters:
      weight: 
      - filter: self_attn
        value: [0.3, 0.1, 0.2]
      - filter: mlp
        value: [0.4, 0.2, 0.1]
      - value: 0.2
      density: 0.7
      lambda: 1.05
  - model: TareksLab/L2-MERGE2a
    parameters:
      weight: 
      - filter: self_attn
        value: [0.2, 0.1, 0.3]
      - filter: mlp
        value: [0.3, 0.1, 0.2]
      - value: 0.2
      density: 0.65
      lambda: 1.05
  - model: TareksLab/L2-MERGE3
    parameters:
      weight: 
      - filter: self_attn
        value: [0.1, 0.3, 0.1]
      - filter: mlp
        value: [0.2, 0.3, 0.1]
      - value: 0.2
      density: 0.6
      lambda: 1.05
  - model: TareksLab/L2-MERGE1
    parameters:
      weight: 
      - filter: self_attn
        value: [0.2, 0.2, 0.1]
      - filter: mlp
        value: [0.1, 0.2, 0.2]
      - value: 0.2
      density: 0.6
      lambda: 1
  - model: TareksLab/L-BASE-V1
    parameters:
      weight: 
      - filter: self_attn
        value: [0.1, 0.3, 0.3]
      - filter: mlp
        value: [0.1, 0.2, 0.4]
      - value: 0.2
      density: 0.55
      lambda: 1
base_model: TareksLab/L-BASE-V1
merge_method: dare_ties
parameters:
  normalize: false
  pad_to_multiple_of: 4
tokenizer:
  source: base
chat_template: llama3
dtype: bfloat16