Daredevil-8B开源超级融合模型 - 2024年MMLU得分最高的Llama 3 8B模型

首页

Daredevil 8B

由 mlabonne 开发

Daredevil-8B 是一个专为最大化 MMLU 得分而设计的超级融合模型，截至 2024 年 5 月 27 日，它是 MMLU 得分最高的 Llama 3 8B 模型。

大型语言模型

Transformers

开源协议:其他 #MMLU高分 #多模型融合 #知识推理

下载量 238

发布时间 : 5/25/2024

模型简介

Daredevil-8B 是一个基于 Llama 3 8B 架构的融合模型，通过融合多个高质量模型优化了 MMLU 性能，可作为 Meta-Llama-3-8B-Instruct 的增强版使用。

模型特点

高性能 MMLU 得分

在 MMLU 基准测试中表现最佳，达到 69.24 的准确率

多模型融合

融合了 9 个高质量的 Llama 3 8B 变体模型

内容审查

经过内容审查的版本，适合安全敏感的应用场景

模型能力

文本生成

问答系统

知识推理

对话系统

使用案例

教育

知识问答

用于教育领域的知识问答系统

在 MMLU 基准测试中表现优异

研究

基准测试

用于语言模型性能研究和基准测试

在多个基准测试中表现优异

🚀 Daredevil-8B

Daredevil-8B是一个旨在最大化MMLU（大规模多任务语言理解）分数的超融合模型。在2024年5月27日，它是Llama 3 8B模型中MMLU分数最高的模型。根据经验，对于Llama 3模型来说，较高的MMLU分数是非常关键的。

image/jpeg

🚀 快速开始

Daredevil-8B可作为meta-llama/Meta-Llama-3-8B-Instruct的改进版本使用。该模型经过了审查，若需要无审查版本，请查看mlabonne/Daredevil-8B-abliterated。此模型已在LM Studio上使用“Llama 3”预设进行了测试。

✨ 主要特性

高MMLU分数：在2024年5月27日，是Llama 3 8B模型中MMLU分数最高的模型。
多模型融合：使用LazyMergekit融合了多个模型。
量化支持：提供了GGUF量化版本，链接为https://huggingface.co/mlabonne/Daredevil-8B-GGUF 。

📦 安装指南

使用前需要安装必要的库，可运行以下命令：

!pip install -qU transformers accelerate

💻 使用示例

基础用法

from transformers import AutoTokenizer
import transformers
import torch

model = "mlabonne/Daredevil-8B"
messages = [{"role": "user", "content": "What is a large language model?"}]

tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])

📚 详细文档

模型融合信息

Daredevil-8B是通过LazyMergekit融合以下模型得到的：

模型配置信息

models:
  - model: NousResearch/Meta-Llama-3-8B
    # No parameters necessary for base model
  - model: nbeerbower/llama-3-stella-8B
    parameters:
      density: 0.6
      weight: 0.16
  - model: Hastagaras/llama-3-8b-okay
    parameters:
      density: 0.56
      weight: 0.1
  - model: nbeerbower/llama-3-gutenberg-8B
    parameters:
      density: 0.6
      weight: 0.18
  - model: openchat/openchat-3.6-8b-20240522
    parameters:
      density: 0.56
      weight: 0.12
  - model: Kukedlc/NeuralLLaMa-3-8b-DT-v0.1
    parameters:
      density: 0.58
      weight: 0.18
  - model: cstr/llama3-8b-spaetzle-v20
    parameters:
      density: 0.56
      weight: 0.08
  - model: mlabonne/ChimeraLlama-3-8B-v3
    parameters:
      density: 0.56
      weight: 0.08
  - model: flammenai/Mahou-1.1-llama3-8B
    parameters:
      density: 0.55
      weight: 0.05
  - model: KingNish/KingNish-Llama3-8b
    parameters:
      density: 0.55
      weight: 0.05
merge_method: dare_ties
base_model: NousResearch/Meta-Llama-3-8B
dtype: bfloat16

评估信息

Open LLM Leaderboard

Daredevil-8B在Open LLM Leaderboard的MMLU分数方面是表现最佳的8B模型（2024年5月27日）。 image/png

Nous

Daredevil-8B在Nous的基准测试套件中是表现最佳的8B模型（使用LLM AutoEval进行评估，2024年5月27日）。完整排行榜请查看此处。

模型	平均分	AGIEval	GPT4All	TruthfulQA	Bigbench
mlabonne/Daredevil-8B 📄	55.87	44.13	73.52	59.05	46.77
mlabonne/Daredevil-8B-abliterated 📄	55.06	43.29	73.33	57.47	46.17
mlabonne/Llama-3-8B-Instruct-abliterated-dpomix 📄	52.26	41.6	69.95	54.22	43.26
meta-llama/Meta-Llama-3-8B-Instruct 📄	51.34	41.22	69.86	51.65	42.64
failspy/Meta-Llama-3-8B-Instruct-abliterated-v3 📄	51.21	40.23	69.5	52.44	42.69
mlabonne/OrpoLlama-3-8B 📄	48.63	34.17	70.59	52.39	37.36
meta-llama/Meta-Llama-3-8B 📄	45.42	31.1	69.95	43.91	36.7