许可证:cc-by-nc-4.0
库名称:transformers
标签:
- mergekit
- merge
基础模型:
- saishf/Ortho-SOVL-8B-L3
- saishf/SOVLish-Maid-L3-8B
- saishf/Merge-Mayhem-L3-V2.1
- saishf/Merge-Mayhem-L3-V2
模型索引:
- 名称:Llama4Some-SOVL-4x8B-L3-V1
结果:
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:AI2推理挑战(25样本)
类型:ai2_arc
配置:ARC-Challenge
拆分:测试集
参数:
少量样本数:25
指标:
- 类型:标准化准确率
值:61.95
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=saishf/Llama4Some-SOVL-4x8B-L3-V1
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:HellaSwag(10样本)
类型:hellaswag
拆分:验证集
参数:
少量样本数:10
指标:
- 类型:标准化准确率
值:79.38
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=saishf/Llama4Some-SOVL-4x8B-L3-V1
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MMLU(5样本)
类型:cais/mmlu
配置:全部
拆分:测试集
参数:
少量样本数:5
指标:
- 类型:准确率
值:65.49
名称:准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=saishf/Llama4Some-SOVL-4x8B-L3-V1
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:TruthfulQA(0样本)
类型:truthful_qa
配置:多项选择
拆分:验证集
参数:
少量样本数:0
指标:
- 类型:mc2
值:51.48
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=saishf/Llama4Some-SOVL-4x8B-L3-V1
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:Winogrande(5样本)
类型:winogrande
配置:winogrande_xl
拆分:验证集
参数:
少量样本数:5
指标:
- 类型:准确率
值:75.69
名称:准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=saishf/Llama4Some-SOVL-4x8B-L3-V1
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:GSM8k(5样本)
类型:gsm8k
配置:主集
拆分:测试集
参数:
少量样本数:5
指标:
- 类型:准确率
值:66.57
名称:准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=saishf/Llama4Some-SOVL-4x8B-L3-V1
名称:开放大语言模型排行榜
合并
这是使用mergekit合并预训练语言模型的结果。
合并详情
该模型合并了我所有的SOVL模型,旨在打造最狂野、最不受约束的模型。采用Mixtral风格!
它可能疯狂,可能语无伦次。我甚至无法加载它 :3
合并方法
该模型采用专家混合方法合并。
合并的模型
合并包含以下模型:
配置
生成该模型的YAML配置如下:
基础模型:saishf/Ortho-SOVL-8B-L3
门控模式:随机
数据类型:bfloat16
专家:
- 源模型:saishf/Ortho-SOVL-8B-L3
- 源模型:saishf/SOVLish-Maid-L3-8B
- 源模型:saishf/Merge-Mayhem-L3-V2.1
- 源模型:saishf/Merge-Mayhem-L3-V2
详细结果请见此处
指标 |
值 |
平均得分 |
66.76 |
AI2推理挑战(25样本) |
61.95 |
HellaSwag(10样本) |
79.38 |
MMLU(5样本) |
65.49 |
TruthfulQA(0样本) |
51.48 |
Winogrande(5样本) |
75.69 |
GSM8k(5样本) |
66.57 |