Llama-3.1-Storm-8B-GGUF开源模型 - 支持对话与函数调用，表现优异免费使用

首页

Llama 3.1 Storm 8B GGUF

由 akjindal53244 开发

Llama-3.1-Storm-8B是基于Llama-3.1-8B-Instruct构建的改进模型，在多项基准测试中表现优异，适用于对话和函数调用任务。

大型语言模型支持多种语言#指令优化 #函数调用 #多语言推理

下载量 654

发布时间 : 8/16/2024

模型简介

Llama-3.1-Storm-8B是一个强大的通用语言模型，通过自筛选数据、定向微调和模型融合技术，在指令跟随、知识问答、推理、减少幻觉和函数调用等方面显著提升性能。

模型特点

改进指令跟随

在IFEval严格模式下性能提升3.93%

增强知识驱动问答

在GPQA、MMLU-Pro和AGIEval等基准测试中表现优异

更好推理能力

在ARC-C、MuSR、BBH等推理基准测试中性能提升显著

更优代理能力

在函数调用任务中准确率提升7.92%

减少幻觉

在TruthfulQA基准测试中性能提升9%

模型能力

文本生成

指令跟随

知识问答

逻辑推理

函数调用

多语言支持

使用案例

对话系统

智能客服

用于构建能够理解复杂指令并提供准确回答的客服系统

在指令跟随和知识问答方面表现优异

函数调用

天气查询

能够正确调用天气查询函数并返回结果

在BFCL基准测试中准确率提升7.92%

教育应用

知识问答

用于构建教育领域的问答系统

在GPQA等知识驱动问答基准中表现优异

🚀 Llama-3.1-Storm-8B-GGUF

Llama-3.1-Storm-8B-GGUF 是 Llama-3.1-Storm-8B 的 GGUF 量化版本，可与 llama.cpp 配合使用。BF16 模型可在此处获取。

image/jpeg

作者：Ashvini Kumar Jindal、Pawan Kumar Rajpoot、Ankur Parikh、Akshita Sukhlecha

🤗 Hugging Face 公告博客：https://huggingface.co/blog/akjindal53244/llama31-storm8b

🐏 Ollama 运行指令：ollama run ajindal/llama3.1-storm:8b

🚀 快速开始

安装依赖

pip install llama-cpp-python

使用示例

from huggingface_hub import hf_hub_download
from llama_cpp import Llama

## 下载 GGUF 模型
model_name = "akjindal53244/Llama-3.1-Storm-8B-GGUF"
model_file = "Llama-3.1-Storm-8B.Q8_0.gguf" # 这是本示例中使用的特定模型文件，为 4 位量化版本。若有需要，模型仓库中还有其他量化级别可供选择
model_path = hf_hub_download(model_name, filename=model_file)

## 从下载的文件实例化模型
llm = Llama(
    model_path=model_path,
    n_ctx=16000,    # 使用的上下文长度
    n_threads=32,   # 使用的 CPU 线程数
    n_gpu_layers=0  # 卸载到 GPU 的模型层数
)

generation_kwargs = {
    "max_tokens":200,
    "stop":["<|eot_id|>"],
    "echo":False, # 输出中是否回显提示
    "top_k":1 # 将此值设置为大于 1 以进行采样解码
}

prompt = "What is 2+2?"
res = llm(prompt, **generation_kwargs)
print(res["choices"][0]["text"])

使用 Ollama 进行函数调用的示例

import ollama
tools = [{
      'type': 'function',
      'function': {
        'name': 'get_current_weather',
        'description': 'Get the current weather for a city',
        'parameters': {
          'type': 'object',
          'properties': {
            'city': {
              'type': 'string',
              'description': 'The name of the city',
            },
          },
          'required': ['city'],
        },
      },
    },
    {
      'type': 'function',
      'function': {
        'name': 'get_places_to_vist',
        'description': 'Get places to visit in a city',
        'parameters': {
          'type': 'object',
          'properties': {
            'city': {
              'type': 'string',
              'description': 'The name of the city',
            },
          },
          'required': ['city'],
        },
      },
    },
  ]
response = ollama.chat(
    model='ajindal/llama3.1-storm:8b',
    messages=[
        {'role': 'system', 'content': 'Do not answer to nay vulgar questions.'},
        {'role': 'user', 'content': 'What is the weather in Toronto and San Francisco?'}
        ],
    tools=tools
)
print(response['message'])  # 预期响应: {'role': 'assistant', 'content': "<tool_call>{'tool_name': 'get_current_weather', 'tool_arguments': {'city': 'Toronto'}}</tool_call>"}

✨ 主要特性

模型介绍

Llama-3.1-Storm-8B 基于 Llama-3.1-8B-Instruct 构建，旨在增强 80 亿参数模型类中的对话和函数调用能力。

image/png

如上图左子图所示，Llama-3.1-Storm-8B 模型在多个基准测试中改进了 Meta-Llama-3.1-8B-Instruct 的性能，包括指令遵循（IFEval）、知识驱动问答基准测试（GPQA、MMLU-Pro）、推理（ARC-C、MuSR、BBH）、减少幻觉（TruthfulQA）和函数调用（BFCL）。对于使用有限计算资源的 AI 开发者和爱好者来说，这种改进尤为显著。

我们还将我们的模型与最近发布的基于 Llama-3.1-8B-Instruct 模型构建的 Hermes-3-Llama-3.1-8B 进行了基准测试。如上图右子图所示，Llama-3.1-Storm-8B 在 9 个基准测试中的 7 个上优于 Hermes-3-Llama-3.1-8B，Hermes-3-Llama-3.1-8B 在 MuSR 基准测试中超过 Llama-3.1-Storm-8B，并且两个模型在 BBH 基准测试中表现相当。

模型优势

Llama-3.1-Storm-8B 是一个强大的通用模型，适用于各种应用。我们邀请 AI 社区探索 Llama-3.1-Storm-8B，并期待看到它在各种项目和应用中的应用。

模型优势	相关基准测试
改进的指令遵循能力	IFEval 严格模式（+3.93%）
增强的知识驱动问答能力	GPQA（+7.21%）、MMLU-Pro（+0.55%）、AGIEval（+3.77%）
更好的推理能力	ARC-C（+3.92%）、MuSR（+2.77%）、BBH（+1.67%）、AGIEval（+3.77%）
卓越的代理能力	BFCL：总体准确率（+7.92%）、BFCL：AST 摘要（+12.32%）
减少的幻觉现象	TruthfulQA（+9%）

注意：所有改进都是相对于 Meta-Llama-3.1-8B-Instruct 的绝对增益。

模型版本

BF16：Llama-3.1-Storm-8B
FP8：Llama-3.1-Storm-8B-FP8-Dynamic
GGUF：Llama-3.1-Storm-8B-GGUF
Ollama：ollama run ajindal/llama3.1-storm:8b

🔧 技术细节

模型构建步骤

我们的方法包括三个关键步骤：

自我筛选：我们应用了两种自我筛选方法，从约 280 万个开源示例中选择了约 100 万个高质量示例。我们的筛选标准侧重于教育价值和难度级别，使用相同的 SLM 进行注释，而不是使用更大的模型（例如 70B、405B）。
有针对性的微调：我们在 Llama-3.1-8B-Instruct 模型上进行了基于 Spectrum 的有针对性的微调。Spectrum 方法通过根据层模块的信噪比（SNR）选择性地针对层模块，并冻结其余模块来加速训练。在我们的工作中，50% 的层被冻结。
模型合并：我们使用 SLERP 方法将我们微调后的模型与 Llama-Spark 模型合并。合并方法产生一个混合模型，其特征从两个父模型平滑插值，确保所得模型捕捉到两个父模型的精髓。Llama-3.1-Storm-8B 在 10 个不同的基准测试中改进了 Llama-3.1-8B-Instruct 的性能。这些基准测试涵盖了指令遵循、知识驱动问答、推理、真实答案生成和函数调用等领域。

对齐说明

虽然 Llama-3.1-Storm-8B 没有经过明确的模型对齐过程，但它可能仍然保留了一些从 Meta-Llama-3.1-8B-Instruct 模型继承的对齐属性。

📚 详细文档

引用我们的工作

@misc {ashvini_kumar_jindal_2024,
    author       = { {Ashvini Kumar Jindal, Pawan Kumar Rajpoot, Ankur Parikh, Akshita Sukhlecha} },
    title        = { Llama-3.1-Storm-8B },
    year         = 2024,
    url          = { https://huggingface.co/akjindal53244/Llama-3.1-Storm-8B },
    doi          = { 10.57967/hf/2902 },
    publisher    = { Hugging Face }
}