基础模型:
- mergekit-community/Qwen2.5-7B-della
- mergekit-community/Qwen2.5-7B-ties
- Qwen/Qwen2.5-7B-Instruct
- Qwen/Qwen2.5-7B-Instruct-1M
- mergekit-community/Qwen2.5-7B-ties-1M
- Qwen/Qwen2.5-7B
- mergekit-community/Qwen2.5-7B-della-1M
库名称: transformers
标签:
- 合并工具包
- 合并
许可证: apache-2.0
语言:
- 英文
- 中文
管道标签: 文本生成
通过使用一个基础模型和两个微调模型实现最优合并模型!
合并一个基础模型和两个微调模型的最佳方式是什么?
这可能是现阶段的最佳答案!
Qwen2.5-7B-YOYO-super
Qwen2.5-14B-YOYO-super
这不是一时兴起的发布,而是无数次合并实验的最优结果!
以下是上一代的公式:
模型:
- 模型: Qwen/Qwen2.5-7B-Instruct
参数:
密度: 1
权重: 1
lambda: 0.9
- 模型: Qwen/Qwen2.5-7B-Instruct-1M
参数:
密度: 1
权重: 1
lambda: 0.9
合并方法: della
基础模型: Qwen/Qwen2.5-7B
参数:
密度: 1
权重: 1
lambda: 0.9
标准化: 真
int8掩码: 真
数据类型: bfloat16
分词器来源: 基础
它被广泛应用于上一代模型的合并过程中。
*然而,存在一些不足:
1.对基础模型知识的保留相对较少。
2.数学和编码能力有所下降。
以下是这一代的公式:
模型:
- 模型: Qwen/Qwen2.5-7B-instruct
参数:
密度: 1
权重: 1
lambda: 0.9
合并方法: della
基础模型: Qwen/Qwen2.5-7B
参数:
密度: 1
权重: 1
lambda: 0.9
标准化: 真
int8掩码: 真
数据类型: float16
分词器来源: 基础
名称: Qwen2.5-7B-della
模型:
- 模型: Qwen/Qwen2.5-7B-instruct-1M
参数:
密度: 1
权重: 1
lambda: 0.9
合并方法: della
基础模型: Qwen/Qwen2.5-7B
参数:
密度: 1
权重: 1
lambda: 0.9
标准化: 真
int8掩码: 真
数据类型: float16
分词器来源: 基础
名称: Qwen2.5-7B-della-1M
模型:
- 模型: Qwen/Qwen2.5-7B-instruct
参数:
密度: 1
权重: 1
合并方法: ties
基础模型: Qwen/Qwen2.5-7B
参数:
密度: 1
权重: 1
标准化: 真
int8掩码: 真
数据类型: float16
分词器来源: 基础
名称: Qwen2.5-7B-ties
模型:
- 模型: Qwen/Qwen2.5-7B-instruct-1M
参数:
密度: 1
权重: 1
合并方法: ties
基础模型: Qwen/Qwen2.5-7B
参数:
密度: 1
权重: 1
标准化: 真
int8掩码: 真
数据类型: float16
分词器来源: 基础
名称: Qwen2.5-7B-ties-1M
合并方法: model_stock
基础模型: Qwen/Qwen2.5-7B
模型:
- 模型: mergekit-community/Qwen2.5-7B-della
- 模型: mergekit-community/Qwen2.5-7B-della-1M
- 模型: mergekit-community/Qwen2.5-7B-ties
- 模型: mergekit-community/Qwen2.5-7B-ties-1M
- 模型: Qwen/Qwen2.5-7B-instruct-1M
- 模型: Qwen/Qwen2.5-7B-instruct
分词器来源: 基础
int8掩码: 真
标准化: 真
数据类型: float16
除了在指令跟随方面略有下降外,其他所有方面都取得了显著改进。
这个公式也将用于下一代YOYO模型的开发中。
YOYO-AI不仅发布了性能卓越的合并模型,还公开了完整且高质量的模型合并公式*,希望通过此举推动开源社区中模型合并技术的进步!*
如果您在合并模型时能使用这个公式,那将是对YOYO-AI最大的支持!