license: cc-by-nc-4.0
tags:
- 模型融合
- mergekit工具
- lazymergekit工具
- AIDC-ai-business/Marcoroni-7B-v3模型
- EmbeddedLLM/Mistral-7B-Merge-14-v0.1模型
model-index:
- name: Marcoro14-7B-slerp融合模型
results:
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: AI2推理挑战赛(25样本)
type: ai2_arc
config: ARC挑战赛
split: 测试集
args:
num_few_shot: 25
metrics:
- type: 标准化准确率
value: 69.8
name: 标准化准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/Marcoro14-7B-slerp
name: 开放LLM排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: HellaSwag(10样本)
type: hellaswag
split: 验证集
args:
num_few_shot: 10
metrics:
- type: 标准化准确率
value: 87.13
name: 标准化准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/Marcoro14-7B-slerp
name: 开放LLM排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: MMLU(5样本)
type: cais/mmlu
config: 全科目
split: 测试集
args:
num_few_shot: 5
metrics:
- type: 准确率
value: 65.11
name: 准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/Marcoro14-7B-slerp
name: 开放LLM排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: TruthfulQA(0样本)
type: truthful_qa
config: 多选
split: 验证集
args:
num_few_shot: 0
metrics:
- type: 多选得分
value: 63.54
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/Marcoro14-7B-slerp
name: 开放LLM排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: Winogrande(5样本)
type: winogrande
config: winogrande_xl版
split: 验证集
args:
num_few_shot: 5
metrics:
- type: 准确率
value: 81.61
name: 准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/Marcoro14-7B-slerp
name: 开放LLM排行榜
- task:
type: 文本生成
name: 文本生成任务
dataset:
name: GSM8k(5样本)
type: gsm8k
config: 主测试集
split: 测试集
args:
num_few_shot: 5
metrics:
- type: 准确率
value: 70.89
name: 准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/Marcoro14-7B-slerp
name: 开放LLM排行榜

Marcoro14-7B-slerp大语言模型
本模型是使用mergekit工具融合的以下两个模型:
🏆 性能评估
Marcoro14-7B-slerp是目前开放LLM排行榜上表现最佳的7B参数大语言模型(下图排名第一的模型为9B参数):

使用Nous的基准测试套件评估结果如下:
模型 |
AGIEval |
GPT4ALL |
TruthfulQA |
Bigbench |
平均分 |
Marcoro14-7B-slerp |
44.66 |
76.24 |
64.15 |
45.64 |
57.67 |
OpenHermes-2.5-Mistral-7B |
43.07 |
73.12 |
53.04 |
40.96 |
52.57 |
性能提升 |
+1.59 |
+3.12 |
+11.11 |
+4.68 |
+5.1 |
AGIEval测试详情
测试项目 |
版本 |
指标 |
得分 |
|
误差 |
agieval_aqua_rat |
0 |
准确率 |
26.38 |
± |
2.77 |
|
|
标准化准确率 |
24.41 |
± |
2.70 |
agieval_logiqa_en |
0 |
准确率 |
38.25 |
± |
1.91 |
|
|
标准化准确率 |
39.32 |
± |
1.92 |
agieval_lsat_ar |
0 |
准确率 |
24.35 |
± |
2.84 |
|
|
标准化准确率 |
25.22 |
± |
2.87 |
agieval_lsat_lr |
0 |
准确率 |
50.00 |
± |
2.22 |
|
|
标准化准确率 |
50.59 |
± |
2.22 |
agieval_lsat_rc |
0 |
准确率 |
62.83 |
± |
2.95 |
|
|
标准化准确率 |
62.08 |
± |
2.96 |
agieval_sat_en |
0 |
准确率 |
79.61 |
± |
2.81 |
|
|
标准化准确率 |
79.61 |
± |
2.81 |
agieval_sat_en无文本参考 |
0 |
准确率 |
45.15 |
± |
3.48 |
|
|
标准化准确率 |
45.63 |
± |
3.48 |
agieval_sat_math |
0 |
准确率 |
33.18 |
± |
3.18 |
|
|
标准化准确率 |
30.45 |
± |
3.11 |
平均得分:44.66%
GPT4ALL测试详情
测试项目 |
版本 |
指标 |
得分 |
|
误差 |
arc_challenge |
0 |
准确率 |
63.91 |
± |
1.40 |
|
|
标准化准确率 |
64.93 |
± |
1.39 |
arc_easy |
0 |
准确率 |
86.07 |
± |
0.71 |
|
|
标准化准确率 |
83.75 |
± |
0.76 |
boolq |
1 |
准确率 |
88.56 |
± |
0.56 |
hellaswag |
0 |
准确率 |
67.31 |
± |
0.47 |
|
|
标准化准确率 |
85.28 |
± |
0.35 |
openbookqa |
0 |
准确率 |
36.40 |
± |
2.15 |
|
|
标准化准确率 |
48.20 |
± |
2.24 |
piqa |
0 |
准确率 |
82.59 |
± |
0.88 |
|
|
标准化准确率 |
84.39 |
± |
0.85 |
winogrande |
0 |
准确率 |
78.53 |
± |
1.15 |
平均得分:76.24%
TruthfulQA测试详情
测试项目 |
版本 |
指标 |
得分 |
|
误差 |
truthfulqa_mc |
1 |
mc1 |
46.88 |
± |
1.75 |
|
|
mc2 |
64.15 |
± |
1.52 |
平均得分:64.15%
Bigbench测试详情
测试项目 |
版本 |
指标 |
得分 |
|
误差 |
bigbench_causal_judgement |
0 |
多选题评分 |
56.32 |
± |
3.61 |
bigbench_date_understanding |
0 |
多选题评分 |
66.40 |
± |
2.46 |
bigbench_disambiguation_qa |
0 |
多选题评分 |
45.35 |
± |
3.11 |
bigbench_geometric_shapes |
0 |
多选题评分 |
20.33 |
± |
2.13 |
|
|
精确字符串匹配 |
4.74 |
± |
1.12 |
bigbench_logical_deduction_five_objects |
0 |
多选题评分 |
30.00 |
± |
2.05 |
bigbench_logical_deduction_seven_objects |
0 |
多选题评分 |
21.43 |
± |
1.55 |
bigbench_logical_deduction_three_objects |
0 |
多选题评分 |
52.33 |
± |
2.89 |
bigbench_movie_recommendation |
0 |
多选题评分 |
39.20 |
± |
2.19 |
bigbench_navigate |
0 |
多选题评分 |
53.90 |
± |
1.58 |
bigbench_reasoning_about_colored_objects |
0 |
多选题评分 |
72.15 |
± |
1.00 |
bigbench_ruin_names |
0 |
多选题评分 |
52.46 |
± |
2.36 |
bigbench_salient_translation_error_detection |
0 |
多选题评分 |
25.75 |
± |
1.38 |
bigbench_snarks |
0 |
多选题评分 |
72.38 |
± |
3.33 |
bigbench_sports_understanding |
0 |
多选题评分 |
73.63 |
± |
1.40 |
bigbench_temporal_sequences |
0 |
多选题评分 |
45.70 |
± |
1.58 |
bigbench_tracking_shuffled_objects_five_objects |
0 |
多选题评分 |
23.44 |
± |
1.20 |
bigbench_tracking_shuffled_objects_seven_objects |
0 |
多选题评分 |
18.51 |
± |
0.93 |
bigbench_tracking_shuffled_objects_three_objects |
0 |
多选题评分 |
52.33 |
± |
2.89 |
平均得分:45.64%
综合平均得分:57.67%
🧩 融合配置
slices:
- sources:
- model: AIDC-ai-business/Marcoroni-7B-v3
layer_range: [0, 32]
- model: EmbeddedLLM/Mistral-7B-Merge-14-v0.1
layer_range: [0, 32]
merge_method: slerp
base_model: AIDC-ai-business/Marcoroni-7B-v3
parameters:
t:
- filter: self_attn
value: [0, 0.5, 0.3, 0.7, 1]
- filter: mlp
value: [1, 0.5, 0.7, 0.3, 0]
- value: 0.5
dtype: bfloat16
💻 使用示例
!pip install -qU transformers accelerate
from transformers import AutoTokenizer
import transformers
import torch
model = "mlabonne/Marcoro14-7B-slerp"
messages = [{"role": "user", "content": "什么是大语言模型?"}]
tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])
输出示例:
大语言模型是一种基于海量文本数据训练的人工智能(AI)系统。它能够理解和生成类人语言,预测句子或文档中可能出现的后续词汇或短语。这类模型采用复杂的算法和神经网络架构,通过数据学习不断提升性能。知名的大语言模型包括OpenAI的GPT-3和谷歌的BERT。
详细结果请查看此处
评估指标 |
得分 |
平均得分 |
73.01 |
AI2推理挑战赛(25样本) |
69.80 |
HellaSwag(10样本) |
87.13 |
MMLU(5样本) |
65.11 |
TruthfulQA(0样本) |
63.54 |
Winogrande(5样本) |
81.61 |
GSM8k(5样本) |
70.89 |