CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity开源模型

首页

Caplattessdolxaboros Yi 34B 200K DARE Ties HighDensity

由 brucethemoose 开发

这是一个基于Yi-34B-200K基础模型，通过DARE Ties方法合并多个同源模型的高密度合并模型，具有200K长上下文处理能力。

大型语言模型

Transformers

英语开源协议:其他 #200K长上下文 #多模型融合 #高密度合并

下载量 94

发布时间 : 12/9/2023

模型简介

该模型通过mergekit的DARE Ties方法合并了Dolphin-2.2-yi-34b-200k、Nous-Capybara-34B、Tess-M-v1.4等多个同源模型，保留了Yi-34B-200K的长上下文能力，同时在多项基准测试中表现优异。

模型特点

长上下文处理

支持200K tokens的长上下文处理，适合处理长文档和复杂推理任务

高密度合并

采用DARE Ties方法以高于推荐密度合并多个同源模型，提升模型性能

多模型优势融合

整合了Dolphin、Capybara、Tess等多个模型的优势，具备多样化能力

高效推理

24GB GPU即可运行，在exllamav2上可支持45K-75K上下文长度

模型能力

文本生成

长文本理解

复杂推理

问答系统

知识问答

使用案例

知识问答

AI2推理挑战赛

在AI2推理挑战赛(ARC)上的少量样本表现

标准化准确率67.41

常识推理

HellaSwag测试

在HellaSwag数据集上的常识推理能力

标准化准确率85.77

数学推理

GSM8k数学问题

解决小学数学应用题的能力

准确率61.33

🚀 CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity

本项目是一个文本生成模型，通过合并多个模型并采用新的实验性实现“dare ties”得到。它在多个文本生成任务的评估中表现出色，具有较高的准确性。

🚀 快速开始

该模型可能已被 https://huggingface.co/brucethemoose/Yi-34B-200K-DARE-merge-v5 替代。以下是旧模型的描述：

✨ 主要特性

多模型融合：将 Dolphin-2.2-yi-34b-200k、Nous-Capybara-34B、Tess-M-v1.4、Airoboros-3_1-yi-34b-200k、PlatYi-34B-200K-Q 和 Una-xaberius-34b-v1beta 等模型通过 mergekit 以新的实验性“dare ties”实现进行合并。
高密度合并：采用高于推荐密度的合并方式，在困惑度测试和长上下文提示测试中表现较好，在 Hugging Face 排行榜上排名更高。
多种提示模板支持：可能识别来自 Dolphin+Xaberius 的 ChatML 和来自 Airoboros 的 Llama-chat 提示模板。

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

SYSTEM: {system_message}
USER: {prompt}
ASSISTANT:

此为 Orca-Vicuna 提示模板，该模型可能识别来自 Dolphin+Xaberius 的 ChatML 和来自 Airoboros 的 Llama-chat 提示模板。有时模型会像 Capybara 一样将停止标记“拼写”为 </s>，因此可能需要添加 </s> 作为额外的停止条件。

📚 详细文档

运行说明

作为 Yi 模型，尝试禁用 BOS 标记，或使用 0.05 - 0.13 的 MinP、较低的温度、轻微的重复惩罚，且不使用其他采样器。默认情况下，Yi 模型运行时“热度”较高。 24GB GPU 可以使用 exllamav2 在 45K - 75K 上下文 下运行 Yi-34B-200K 模型。更多详细信息可参考此帖子。建议使用在与所需任务相似的数据上进行分析的 exl2 量化方法。在低 bpw 时，模型对量化数据特别敏感！已在 vicuuna chat + 小说写作上发布了自己的量化版本：4bpw 3.1bpw。要在 transformers 和 vllm 等全上下文后端中加载该模型，必须将 config.json 中的 max_position_embeddings 更改为低于 200,000 的值，否则会出现内存不足（OOM）错误！

测试说明

密度测试：通过困惑度测试和长上下文提示对各种密度进行了测试。与《Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch》论文的研究结果相反，相对较高的密度似乎表现更好。
合并密度：此特定版本的合并密度超过了“推荐”的最大密度 0.5。这似乎导致了更好的困惑度，并且在 Hugging Face 排行榜上的排名更高，但不确定这是否意味着输出效果更好。
权重优化：权重总和为 1 似乎是最优的。
合并方法优势：“Dare Ties”合并方法似乎比常规的 ties 合并、任务算术合并或 slerp 合并产生更好、更低困惑度的结果。
Xaberuis 合并处理：Xaberuis 不是 200K 模型，因此以非常低的密度进行合并，以在保留 Yi 200K 长上下文性能的同时继承 Xaberuis 的部分性能。
模型选择原因：选择不包括其他微调模型，因为它们不是在 200K 基础上训练的。如果有其他 200K 微调模型出现，请告知。

🔧 技术细节

本模型通过 mergekit 以新的实验性“dare ties”实现进行合并，合并配置如下：

models:
  - model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
    # no parameters necessary for base model
  - model: /home/alpha/Storage/Models/Raw/migtissera_Tess-34B-v1.4
    parameters:
      weight: 0.19
      density: 0.6
  - model: /home/alpha//Storage/Models/Raw/bhenrym14_airoboros-3_1-yi-34b-200k
    parameters:
      weight: 0.14
      density: 0.5
  - model: /home/alpha/Storage/Models/Raw/Nous-Capybara-34B
    parameters:
      weight: 0.19
      density: 0.6
  - model: /home/alpha/Storage/Models/Raw/kyujinpy_PlatYi-34B-200K-Q
    parameters:
      weight: 0.14
      density: 0.5
  - model: /home/alpha/FastModels/ehartford_dolphin-2.2-yi-34b-200k
    parameters:
      weight: 0.19
      density: 0.6
  - model: /home/alpha/FastModels/fblgit_una-xaberius-34b-v1beta
    parameters:
      weight: 0.15
      density: 0.08
merge_method: dare_ties
base_model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
parameters:
  int8_mask: true
dtype: bfloat16

📄 许可证

本模型使用的许可证为 yi-license。

模型评估结果

Open LLM Leaderboard 评估结果详细结果可查看此处

指标	值
平均值	72.15
AI2 推理挑战 (25 次少样本学习)	67.41
HellaSwag (10 次少样本学习)	85.77
MMLU (5 次少样本学习)	77.44
TruthfulQA (0 次少样本学习)	57.84
Winogrande (5 次少样本学习)	83.11
GSM8k (5 次少样本学习)	61.33