license: apache-2.0
tags:
- 模型融合
- mergekit工具
- lazymergekit工具
- gordicaleksa/YugoGPT模型
- mlabonne/AlphaMonarch-7B模型
model-index:
- name: Tito-7B-slerp
results:
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: AI2推理挑战赛(25样本)
type: ai2_arc
config: ARC挑战赛
split: 测试集
args:
num_few_shot: 25
metrics:
- type: 标准化准确率
value: 68.09
name: 标准化准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Stopwolf/Tito-7B-slerp
name: 开放大模型排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: HellaSwag(10样本)
type: hellaswag
split: 验证集
args:
num_few_shot: 10
metrics:
- type: 标准化准确率
value: 86.38
name: 标准化准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Stopwolf/Tito-7B-slerp
name: 开放大模型排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: MMLU(5样本)
type: cais/mmlu
config: 全科目
split: 测试集
args:
num_few_shot: 5
metrics:
- type: 准确率
value: 64.01
name: 准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Stopwolf/Tito-7B-slerp
name: 开放大模型排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: TruthfulQA(0样本)
type: truthful_qa
config: 多选模式
split: 验证集
args:
num_few_shot: 0
metrics:
- type: mc2评分
value: 57.01
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Stopwolf/Tito-7B-slerp
name: 开放大模型排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: Winogrande(5样本)
type: winogrande
config: winogrande_xl版本
split: 验证集
args:
num_few_shot: 5
metrics:
- type: 准确率
value: 81.69
name: 准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Stopwolf/Tito-7B-slerp
name: 开放大模型排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: GSM8k(5样本)
type: gsm8k
config: 主测试集
split: 测试集
args:
num_few_shot: 5
metrics:
- type: 准确率
value: 63.61
name: 准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Stopwolf/Tito-7B-slerp
name: 开放大模型排行榜
Tito-7B-slerp模型
Tito-7B-slerp是通过mergekit工具融合以下模型而成:
🧩 融合配置
slices:
- sources:
- model: gordicaleksa/YugoGPT
layer_range: [0, 32]
- model: mlabonne/AlphaMonarch-7B
layer_range: [0, 32]
merge_method: slerp
base_model: mlabonne/AlphaMonarch-7B
parameters:
t:
- filter: self_attn
value: [0, 0.5, 0.3, 0.7, 1]
- filter: mlp
value: [1, 0.5, 0.7, 0.3, 0]
- value: 0.6
dtype: bfloat16
评估结果
塞尔维亚语大模型评估套件表现(即塞尔维亚语性能与知识):
|
ARC-E |
ARC-C |
Hellaswag |
BoolQ |
Winogrande |
OpenbookQA |
PiQA |
NQ开放题 |
TriviaQA |
平均分 |
Zamfir-7B |
51.85 |
32.25 |
46.03 |
75.59 |
62.59 |
26.00 |
66.81 |
16.09 |
36.11 |
45.92 |
Mustra-7B |
52.95 |
33.70 |
45.89 |
77.55 |
64.17 |
30.60 |
67.25 |
15.40 |
34.84 |
46.93 |
Tito-7B |
55.43 |
34.73 |
48.19 |
77.37 |
65.27 |
30.00 |
67.30 |
16.7 |
35.38 |
47.82 |
YugoGPT |
57.79 |
34.73 |
49.89 |
69.45 |
64.56 |
28.20 |
72.03 |
15.82 |
36.14 |
47.62 |
注:除NQ开放题和TriviaQA采用5样本评估(以便与Mistral论文可比)外,其他均为0样本测试。
在塞尔维亚语数据集上复现开放大模型排行榜结果(采用对应样本量):
|
ARC |
Hellaswag |
Winogrande |
TruthfulQA |
平均分 |
Tito-7B |
47.27 |
- |
69.93 |
57.48 |
58.23 |
Perucac-7B |
49.74 |
- |
71.98 |
56.03 |
59.25 |
YugoGPT |
44.03 |
- |
70.64 |
48.06 |
54.24 |
Llama3-8B |
42.24 |
- |
61.25 |
51.08 |
51.52 |
SambaLingo |
37.88 |
- |
61.48 |
47.23 |
48.86 |
注:YugoGPT、Llama3和SambaLingo均为基础模型,而Tito和Perucac为融合模型。
详细结果参见此处
评估指标 |
Tito |
YugoGPT |
平均分 |
70.13 |
57.34 |
AI2推理挑战赛(25样本) |
68.09 |
58.10 |
HellaSwag(10样本) |
86.38 |
81.44 |
MMLU(5样本) |
64.01 |
60.68 |
TruthfulQA(0样本) |
57.01 |
36.60 |
Winogrande(5样本) |
81.69 |
76.56 |
GSM8k(5样本) |
63.61 |
30.70 |