EXAONE-Deep-7.8B-GGUF开源模型 - 数学编程推理超厉害，胜过同规模竞品！

首页

EXAONE Deep 7.8B GGUF

由 QuantFactory 开发

EXAONE Deep系列模型在数学和编程等推理任务中表现出色，7.8B版本优于同规模开源模型，甚至超越某些专有模型。

大型语言模型支持多种语言开源协议:其他 #数学推理优化 #长上下文支持 #韩英双语

下载量 297

发布时间 : 3/25/2025

模型简介

EXAONE Deep系列推理增强型语言模型，专注于数学和编程等复杂推理任务，支持英语和韩语。

模型特点

卓越推理能力

在数学和编程等复杂推理任务中表现优异，超越同规模开源模型。

长上下文支持

支持32,768 tokens的上下文长度，适合处理长文档和复杂问题。

多语言支持

支持英语和韩语，特别适合处理韩语数学题和推理任务。

高效架构

采用GQA架构（分组查询注意力），平衡性能和效率。

模型能力

数学推理

编程问题解决

韩语文本生成

复杂问题解答

逐步推理展示

使用案例

教育

数学竞赛题解答

解决AIME等数学竞赛题目，提供逐步推理过程。

在AIME 2024评估中表现优异

韩语CSAT数学题解答

解答韩国大学入学考试数学题，包括选择题和解答题。

在CSAT数学2025评估中表现良好

编程

代码生成与问题解决

解决编程问题并生成相应代码。

在Live Code Bench评估中表现良好

🚀 QuantFactory/EXAONE-Deep-7.8B-GGUF

这是使用llama.cpp创建的LGAI-EXAONE/EXAONE-Deep-7.8B的量化版本。

🚀 快速开始

我们建议使用transformers v4.43.1或更高版本。

以下是使用该模型进行对话推理的代码片段：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True    # choose the streaming option

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Choose your prompt:
#   Math example (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.

Please reason step by step, and put your final answer within \boxed{}."""
#   Korean MCQA example (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.

Options :
A) 120
B) 125
C) 130
D) 135
E) 140
 
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

if streaming:
    streamer = TextIteratorStreamer(tokenizer)
    thread = Thread(target=model.generate, kwargs=dict(
        input_ids=input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        streamer=streamer
    ))
    thread.start()

    for text in streamer:
        print(text, end="", flush=True)
else:
    output = model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
    )
    print(tokenizer.decode(output[0]))

⚠️ 重要提示

EXAONE Deep模型是使用优化配置进行训练的，因此我们建议遵循使用指南部分以实现最佳性能。

✨ 主要特性

模型介绍

我们推出了EXAONE Deep，这是由LG AI Research开发并发布的一系列模型，参数范围从24亿到320亿，在包括数学和编码基准测试在内的各种推理任务中表现出色。评估结果显示：1) EXAONE Deep 24亿参数模型的性能优于其他同等规模的模型；2) EXAONE Deep 78亿参数模型不仅优于同等规模的开源权重模型，还超过了专有推理模型OpenAI o1-mini；3) EXAONE Deep 320亿参数模型与领先的开源权重模型相比具有竞争力。

更多详细信息，请参考我们的文档、博客和GitHub。

模型特性

本仓库包含一个78亿参数的推理语言模型，具有以下特性：

参数数量（不包括嵌入层）：69.8亿
层数：32
注意力头数量：采用GQA，32个查询头和8个键值头
词表大小：102,400
上下文长度：32,768个标记

📚 详细文档

评估结果

以下表格展示了该模型在数学和编码等推理任务中的评估结果。完整的评估结果可在文档中找到。

模型	MATH - 500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek - R1 - Distill - Qwen - 32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ - 32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek - R1 - Distill - Llama - 70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek - R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9
EXAONE Deep 7.8B	94.8	70.0 / 83.3	59.6 / 76.7	89.9	62.6	55.2
DeepSeek - R1 - Distill - Qwen - 7B	92.8	55.5 / 83.3	38.5 / 56.7	79.7	49.1	37.6
DeepSeek - R1 - Distill - Llama - 8B	89.1	50.4 / 80.0	33.6 / 53.3	74.1	49.0	39.6
OpenAI o1 - mini	90.0	63.6 / 80.0	54.8 / 66.7	84.4	60.0	53.8
EXAONE Deep 2.4B	92.3	52.5 / 76.7	47.9 / 73.3	79.2	54.3	46.6
DeepSeek - R1 - Distill - Qwen - 1.5B	83.9	28.9 / 52.7	23.9 / 36.7	65.6	33.8	16.9

部署方式

EXAONE Deep模型可以在多种框架中进行推理，例如：

TensorRT - LLM
vLLM
SGLang
llama.cpp
Ollama
LM - Studio

有关推理框架的更多详细信息，请参考我们的EXAONE Deep GitHub。

量化处理

我们提供了使用AWQ预量化的EXAONE Deep模型，以及几种GGUF格式的量化类型。请参考我们的EXAONE Deep集合来查找相应的量化模型。

使用指南

为了实现预期的性能，我们建议使用以下配置：

确保模型的推理步骤以<thought>\n开头。如果省略此开头，模型的输出质量可能会下降。你可以通过使用tokenizer.apply_chat_template()并设置add_generation_prompt = True来轻松应用此功能。请查看快速开始部分的示例代码。
EXAONE Deep模型的推理步骤通常包含在<thought>\n...\n</thought>中，可能会有大量标记。因此，在多轮对话中，可能需要删除之前的推理步骤。提供的分词器会自动处理此问题。
避免使用系统提示，而是在用户提示中构建指令。
额外的指令有助于模型进行更深入的推理，从而生成更好的输出。
- 对于数学问题，指令**"请逐步推理，并将最终答案放在\boxed{}中。"** 很有帮助。
- 有关我们评估设置（包括提示）的更多信息，请参考我们的文档。
在我们的评估中，我们使用temperature = 0.6和top_p = 0.95进行生成。
在评估模型时，建议多次测试以准确评估预期性能。

局限性

EXAONE语言模型存在一定的局限性，偶尔可能会生成不适当的响应。该语言模型根据标记的输出概率生成响应，这是在从训练数据中学习时确定的。尽管我们已尽力从训练数据中排除个人、有害和有偏见的信息，但仍可能包含一些有问题的内容，从而导致不理想的响应。请注意，EXAONE语言模型生成的文本并不反映LG AI Research的观点。

可能会生成包含个人、有害或其他不适当信息的不适当答案。
可能会生成与年龄、性别、种族等相关的有偏见的响应。
生成的响应严重依赖于训练数据的统计信息，可能会导致生成语义或语法错误的句子。
由于模型不反映最新信息，响应可能是错误或矛盾的。

LG AI Research致力于降低EXAONE语言模型可能带来的潜在风险。用户在使用EXAONE语言模型时，不得进行任何可能导致生成违反LG AI道德原则的不适当输出的恶意活动（例如输入非法信息）。

📄 许可证

该模型遵循EXAONE AI模型许可协议1.1 - 非商业版。

🔖 引用

@article{exaone-deep,
  title={EXAONE Deep: Reasoning Enhanced Language Models},
  author={{LG AI Research}},
  journal={arXiv preprint arXiv:2503.12524},
  year={2025}
}