Capytessborosyi 34B 200K DARE Ties

由 brucethemoose 开发

这是一个通过mergekit的DARE Ties方法合并的34B参数大语言模型，基于Yi-34B-200K架构，融合了Nous-Capybara-34B、Tess-M-v1.3和airoboros-3_1-yi-34b-200k三个模型的能

大型语言模型

Transformers

英语

开源协议:其他 #200K长文本处理 #DARE-Ties合并技术 #多任务指令微调

下载量 88

发布时间 : 11/28/2023

模型介绍

内容详情

替代品

模型简介

该模型专注于文本生成任务，通过创新的DARE Ties合并方法优化了困惑度表现，支持高达200K的上下文长度，适合需要长文本处理的场景。

模型特点

DARE Ties合并技术

采用实验性的DARE Ties合并方法，相比传统Ties合并具有更优的困惑度表现。

长上下文支持

支持高达200K的上下文长度，适合处理长文档和复杂对话场景。

多模型能力融合

整合了Nous-Capybara-34B的对话能力、Tess-M-v1.3的通用能力以及airoboros-3_1-yi-34b-200k的长文本处理能力。

模型能力

长文本生成

对话系统

文本续写

指令跟随

使用案例

内容创作

长篇小说创作

利用200K上下文长度优势进行连贯的长篇故事创作

可保持情节连贯性的超长文本生成

对话系统

复杂对话场景

处理包含大量上下文的复杂对话

能理解并回应长对话历史中的细节

许可证：其他
许可证名称：yi-license
许可证链接：https://huggingface.co/01-ai/Yi-34B/blob/main/LICENSE
语言：

英文
库名称：transformers
流水线标签：文本生成
标签：
文本生成推理
合并

已废弃，请参见：https://huggingface.co/brucethemoose/CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity

NousResearch/Nous-Capybara-34B、migtissera/Tess-M-v1.3 和 bhenrym14/airoboros-3_1-yi-34b-200k 通过 mergekit 的新实验性实现“dare ties”合并。参考：

语言模型是超级马里奥：从同源模型中吸收能力作为免费午餐

https://github.com/yule-BUAA/MergeLM

https://github.com/cg123/mergekit/tree/dare

使用以下配置合并，并使用 chargoddard 的 Yi-Llama 的分词器：

models:  
  - model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama  
    # 基础模型无需参数  
  - model: /home/alpha/Storage/Models/Raw/migtissera_Tess-M-v1.3  
    parameters:  
      weight: 0.41  
      density: 0.50  
  - model: /home/alpha//Storage/Models/Raw/bhenrym14_airoboros-3_1-yi-34b-200k  
    parameters:  
      weight: 0.18  
      density: 0.46  
  - model: /home/alpha/Storage/Models/Raw/Nous-Capybara-34B  
    parameters:  
      weight: 0.41  
      density: 0.50  
merge_method: dare_ties  
base_model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama  
parameters:  
int8_mask: true  
dtype: bfloat16

dare_ties 测试显示，其困惑度优于相同合并配置的常规 ties 合并。测试表明，权重总和为 1 的模型权重似乎是最优的。高上下文结果似乎...比之前使用 Tess 1.2 的 dare 合并更好。

我选择不包含其他微调模型（如 Dolphin），因为它们不是在 200K 基础上训练的。如果有其他 200K 微调模型出现，请告诉我。

提示模板：Orca-Vicuna

SYSTEM: {system_message}  
USER: {prompt}  
ASSISTANT:

作为 Yi 模型，如果输出看起来不正确，可以尝试禁用 BOS 标记和/或使用 MinP（不结合其他采样器）降低温度。Yi 模型默认倾向于“过热”。

有时模型会像 Capybara 一样将停止标记拼写为 </s>，因此可能需要将 </s> 添加为额外的停止条件。它也可能响应 llama-2 的聊天格式。

24GB GPU 可以使用 exllamav2 在 45K-75K 上下文 下运行 Yi-34B-200K 模型。我在这篇帖子中详细介绍了这一点，并推荐针对类似任务的 exl2 量化，例如这些针对故事写作的量化：4.0bpw / 3.1bpw

致谢：

https://github.com/cg123/mergekit/tree/dare

https://huggingface.co/NousResearch/Nous-Capybara-34B/

https://huggingface.co/bhenrym14/airoboros-3_1-yi-34b-200k

https://huggingface.co/migtissera/Tess-M-v1.3

https://huggingface.co/chargoddard/Yi-34B-200K-Llama

https://huggingface.co/01-ai/Yi-34B-200K

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

AIbase是一个专注于MCP服务的平台，为AI开发者提供高质量的模型上下文协议服务，助力AI应用开发。

简体中文

热门模型

Llama 3 Typhoon V1.5x 8b Instruct

Cadet Tiny

Roberta Base Chinese Extractive Qa

热门模型分类

热门标签