Qwen2.5-7B-YOYO-super开源大语言模型 - 免费部署强化指令、数学与编码能力

首页

Qwen2.5 7B YOYO Super

由 YOYO-AI 开发

Qwen2.5-7B-YOYO-super 是一个通过合并基础模型和微调模型优化的开源大语言模型，专注于提升指令跟随、数学和编码能力。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #多模型融合 #指令优化 #中英双语

下载量 17

发布时间 : 4/6/2025

模型简介

该模型通过合并 Qwen2.5-7B 基础模型及其多个微调版本，实现了在指令跟随、数学和编码能力上的显著改进。

模型特点

优化的模型合并

通过合并基础模型和多个微调模型，显著提升了模型的综合性能。

保留基础模型知识

新的合并公式更好地保留了基础模型的知识，减少了数学和编码能力的下降。

多方法合并

结合了 della 和 ties 等多种合并方法，确保模型性能的全面提升。

模型能力

文本生成

指令跟随

数学推理

代码生成

使用案例

自然语言处理

对话系统

可用于构建智能对话系统，提供流畅的交互体验。

代码辅助

帮助开发者生成和优化代码片段。

教育

数学问题解答

解答数学问题并提供详细的推理过程。

🚀 Qwen2.5 模型合并方案

本项目旨在通过一个基础模型和两个微调模型实现最优的合并模型，为模型合并提供了有效的解决方案，推动了开源社区模型合并技术的发展。

🚀 快速开始

本项目提供了两代模型合并公式，帮助你实现模型的有效合并。

上一代模型合并公式

上一代模型合并公式在之前的模型合并过程中被广泛使用，但存在一些不足，例如对基础模型知识的保留较少，数学和编码能力有所下降。

models:  
  - model: Qwen/Qwen2.5-7B-Instruct  
    parameters:  
      density: 1  
      weight: 1  
      lambda: 0.9
  - model: Qwen/Qwen2.5-7B-Instruct-1M  
    parameters:  
      density: 1  
      weight: 1  
      lambda: 0.9  
merge_method: della  
base_model: Qwen/Qwen2.5-7B  
parameters:  
  density: 1  
  weight: 1  
  lambda: 0.9  
  normalize: true  
  int8_mask: true  
dtype: bfloat16  
tokenizer_source: base

新一代模型合并公式

新一代模型合并公式在除指令遵循能力略有下降外，其他方面均取得了显著改进，并且该公式将应用于下一代 YOYO 模型的开发。

models:
  - model: Qwen/Qwen2.5-7B-instruct
    parameters:
      density: 1 
      weight: 1
      lambda: 0.9
merge_method: della
base_model: Qwen/Qwen2.5-7B
parameters:
  density: 1
  weight: 1
  lambda: 0.9
  normalize: true
  int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-7B-della

models:
  - model: Qwen/Qwen2.5-7B-instruct-1M
    parameters:
      density: 1 
      weight: 1
      lambda: 0.9
merge_method: della
base_model: Qwen/Qwen2.5-7B
parameters:
  density: 1
  weight: 1
  lambda: 0.9
  normalize: true
  int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-7B-della-1M

models:
  - model: Qwen/Qwen2.5-7B-instruct
    parameters:
      density: 1 
      weight: 1
merge_method: ties
base_model: Qwen/Qwen2.5-7B
parameters:
  density: 1
  weight: 1
  normalize: true
  int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-7B-ties

models:
  - model: Qwen/Qwen2.5-7B-instruct-1M
    parameters:
      density: 1 
      weight: 1
merge_method: ties
base_model: Qwen/Qwen2.5-7B
parameters:
  density: 1
  weight: 1
  normalize: true
  int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-7B-ties-1M

merge_method: model_stock
base_model: Qwen/Qwen2.5-7B
models:
  - model: mergekit-community/Qwen2.5-7B-della
  - model: mergekit-community/Qwen2.5-7B-della-1M
  - model: mergekit-community/Qwen2.5-7B-ties
  - model: mergekit-community/Qwen2.5-7B-ties-1M
  - model: Qwen/Qwen2.5-7B-instruct-1M
  - model: Qwen/Qwen2.5-7B-instruct
tokenizer_source: base
int8_mask: true
normalize: true
dtype: float16