语言:
- 英文
许可证: 其他
库名称: transformers
标签:
- 文本生成推理
- 合并
许可证名称: yi许可证
许可证链接: https://huggingface.co/01-ai/Yi-34B/blob/main/LICENSE
管道标签: 文本生成
模型索引:
- 名称: CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛(25次少量样本)
类型: ai2_arc
配置: ARC-挑战
拆分: 测试
参数:
少量样本数: 25
指标:
- 类型: 标准化准确率
值: 67.41
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=brucethemoose/CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag(10次少量样本)
类型: hellaswag
拆分: 验证
参数:
少量样本数: 10
指标:
- 类型: 标准化准确率
值: 85.77
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=brucethemoose/CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU(5次少量样本)
类型: cais/mmlu
配置: 全部
拆分: 测试
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 77.44
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=brucethemoose/CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA(0次少量样本)
类型: truthful_qa
配置: 多项选择
拆分: 验证
参数:
少量样本数: 0
指标:
- 类型: mc2
值: 57.84
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=brucethemoose/CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande(5次少量样本)
类型: winogrande
配置: winogrande_xl
拆分: 验证
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 83.11
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=brucethemoose/CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k(5次少量样本)
类型: gsm8k
配置: 主要
拆分: 测试
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 61.33
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=brucethemoose/CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity
名称: 开放大语言模型排行榜
可能已过时,被 https://huggingface.co/brucethemoose/Yi-34B-200K-DARE-merge-v5 替代
旧模型描述如下:
Dolphin-2.2-yi-34b-200k、Nous-Capybara-34B、Tess-M-v1.4、Airoboros-3_1-yi-34b-200k、PlatYi-34B-200K-Q 和 Una-xaberius-34b-v1beta 通过 mergekit 的新实验性实现“dare ties”合并。参见:
语言模型是超级马里奥:从同源模型中吸收能力作为免费午餐
https://github.com/cg123/mergekit/tree/dare
此变体以“高于推荐”的密度合并,配置如下,并使用来自 chargoddard 的 Yi-Llama 的分词器:
模型:
- 模型: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
# 基础模型无需参数
- 模型: /home/alpha/Storage/Models/Raw/migtissera_Tess-34B-v1.4
参数:
权重: 0.19
密度: 0.6
- 模型: /home/alpha//Storage/Models/Raw/bhenrym14_airoboros-3_1-yi-34b-200k
参数:
权重: 0.14
密度: 0.5
- 模型: /home/alpha/Storage/Models/Raw/Nous-Capybara-34B
参数:
权重: 0.19
密度: 0.6
- 模型: /home/alpha/Storage/Models/Raw/kyujinpy_PlatYi-34B-200K-Q
参数:
权重: 0.14
密度: 0.5
- 模型: /home/alpha/FastModels/ehartford_dolphin-2.2-yi-34b-200k
参数:
权重: 0.19
密度: 0.6
- 模型: /home/alpha/FastModels/fblgit_una-xaberius-34b-v1beta
参数:
权重: 0.15
密度: 0.08
合并方法: dare_ties
基础模型: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
参数:
int8_mask: 真
数据类型: bfloat16
提示模板: Orca-Vicuna?
系统: {系统消息}
用户: {提示}
助手:
它可能识别来自 Dolphin+Xaberius 的 ChatML,以及来自 Airoboros 的 Llama-chat。
有时模型会像 Capybara 一样拼写出停止标记 </s>
,因此可能需要将 </s>
添加为额外的停止条件。
运行
作为 Yi 模型,尝试禁用 BOS 标记,并以较低的温度运行,使用 0.05-0.13 的 MinP,少量重复惩罚,不使用其他采样器。Yi 默认运行“较热”。
24GB GPU 可以在 exllamav2 上以 45K-75K 上下文 运行 Yi-34B-200K 模型。我在这个帖子中详细介绍了更多内容。
我建议在类似于所需任务的数据上进行分析的 exl2 量化。在低 bpw 时,它对量化数据特别敏感!我在这里发布了我自己的量化,基于 vicuuna 聊天和小说写作:4bpw 3.1bpw
要在 transformers 和 vllm 等全上下文后端中加载此模型,必须将 config.json 中的 max_position_embeddings
更改为低于 200,000 的值,否则会出现内存不足错误!
测试笔记
使用困惑度测试和长上下文提示测试了各种密度。相对较高的密度似乎表现更好,与《超级马里奥》论文的发现相反。
此特定版本以超过“推荐”最大密度 0.5 进行合并。似乎导致更好的困惑度,以及在 hf 排行榜上的更高排名,但我不确定这是否转化为更好的输出。
权重总和为 1 似乎是最优的。
Dare Ties 也导致看似更好、困惑度更低的合并,比常规 ties 合并、任务算术或 slerp 合并更好。
Xaberuis 不是 200K 模型,因此以非常低的密度合并,以尝试保留 Yi 200K 的长上下文性能,同时仍继承 Xaberius 的一些性能。
我没有包括其他微调,因为它们不是在 200K 基础上训练的。如果有其他 200K 微调出现,请告诉我。
致谢:
https://github.com/cg123/mergekit/tree/dare
https://huggingface.co/ehartford/dolphin-2.2-yi-34b-200k
https://huggingface.co/kyujinpy/PlatYi-34B-200K-Q
https://huggingface.co/NousResearch/Nous-Capybara-34B/
https://huggingface.co/bhenrym14/airoboros-3_1-yi-34b-200k
https://huggingface.co/migtissera/Tess-M-v1.4
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/chargoddard/Yi-34B-200K-Llama
https://huggingface.co/01-ai/Yi-34B-200K
详细结果可在此处找到here
指标 |
值 |
平均 |
72.15 |
AI2推理挑战赛(25次少量样本) |
67.41 |
HellaSwag(10次少量样本) |
85.77 |
MMLU(5次少量样本) |
77.44 |
TruthfulQA(0次少量样本) |
57.84 |
Winogrande(5次少量样本) |
83.11 |
GSM8k(5次少量样本) |
61.33 |