EXAONE-Deep-2.4B-GGUF开源语言模型 - 免费部署助力数学编程推理任务

首页

EXAONE Deep 2.4B GGUF

由 Mungert 开发

EXAONE Deep是由LG AI Research开发的高效推理语言模型，参数规模2.4B，在数学和编程等推理任务中表现优异。

大型语言模型支持多种语言开源协议:其他 #多语言推理 #数学编程优化 #低资源部署

下载量 968

发布时间 : 3/19/2025

模型简介

EXAONE Deep是一个专注于推理能力的语言模型系列，该2.4B版本在保持较小参数规模的同时实现了出色的推理性能。

模型特点

高效推理能力

在数学和编程等推理任务中表现优异，超越同等规模模型

优化的架构设计

采用GQA架构(32个Q头和8个KV头)，平衡计算效率和模型性能

长上下文支持

支持32,768个token的上下文长度，适合处理长文档

多格式支持

提供BF16、F16及多种量化版本，适应不同硬件需求

模型能力

数学推理

编程代码生成

长文本处理

多语言文本生成

使用案例

教育

数学问题解答

解决高中数学竞赛级别的问题

在AIME数学竞赛测试中表现优异

编程

代码生成与补全

根据自然语言描述生成编程代码

在Live Code Bench测试中达到59.5%通过率

🚀 EXAONE-Deep-2.4B GGUF模型

EXAONE-Deep-2.4B GGUF模型由LG AI Research开发并发布，在数学和编码等各类推理任务中展现出卓越能力。该模型有多种格式可供选择，能根据不同的硬件条件和内存限制，为用户提供高效且精准的推理服务。

🚀 快速开始

选择合适的模型格式

选择正确的模型格式取决于你的硬件性能和内存限制。

BF16（脑浮点16） – 若支持BF16加速则使用

一种16位浮点格式，专为更快的计算而设计，同时保持良好的精度。
提供与FP32 相似的动态范围，但内存使用更低。
如果你的硬件支持BF16加速（查看设备规格），建议使用。
与FP32相比，适用于高性能推理，且内存占用减少。

📌 使用BF16的情况： ✔ 你的硬件具有原生BF16支持（例如，较新的GPU、TPU）。 ✔ 你希望在节省内存的同时获得更高的精度。 ✔ 你计划将模型重新量化为其他格式。

📌 避免使用BF16的情况： ❌ 你的硬件不支持BF16（可能会回退到FP32并运行较慢）。 ❌ 你需要与缺乏BF16优化的旧设备兼容。

F16（浮点16） – 比BF16更广泛支持

一种16位浮点格式，精度高，但取值范围比BF16小。
适用于大多数支持FP16加速的设备（包括许多GPU和一些CPU）。
数值精度略低于BF16，但通常足以进行推理。

📌 使用F16的情况： ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、内存使用和准确性之间取得平衡。 ✔ 你在GPU或其他针对FP16计算优化的设备上运行。

📌 避免使用F16的情况： ❌ 你的设备缺乏原生FP16支持（可能运行比预期慢）。 ❌ 你有内存限制。

量化模型（Q4_K、Q6_K、Q8等） – 用于CPU和低显存推理

量化可在尽可能保持准确性的同时减小模型大小和内存使用。

低比特模型（Q4_K） → 内存使用最少，但精度可能较低。
高比特模型（Q6_K、Q8_0） → 准确性更好，但需要更多内存。

📌 使用量化模型的情况： ✔ 你在CPU上运行推理，需要优化的模型。 ✔ 你的设备显存较低，无法加载全精度模型。 ✔ 你希望在保持合理准确性的同时减少内存占用。

📌 避免使用量化模型的情况： ❌ 你需要最高的准确性（全精度模型更适合）。 ❌ 你的硬件有足够的显存用于更高精度的格式（BF16/F16）。

极低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

这些模型针对极致内存效率进行了优化，非常适合低功耗设备或大规模部署，其中内存是关键限制因素。

IQ3_XS：超低比特量化（3位），具有极致的内存效率。
- 用例：最适合超低内存设备，即使Q4_K也太大。
- 权衡：与高比特量化相比，准确性较低。
IQ3_S：小块大小，实现最大内存效率。
- 用例：最适合低内存设备，其中IQ3_XS过于激进。
IQ3_M：中等块大小，比IQ3_S具有更好的准确性。
- 用例：适用于低内存设备，其中IQ3_S过于受限。
Q4_K：4位量化，具有逐块优化，以提高准确性。
- 用例：最适合低内存设备，其中Q6_K太大。
Q4_0：纯4位量化，针对ARM设备进行了优化。
- 用例：最适合基于ARM的设备或低内存环境。

总结表：模型格式选择

模型格式	精度	内存使用	设备要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	减少内存的高速推理
F16	高	高	支持FP16的设备	BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低显存设备	内存受限环境的最佳选择
Q6_K	中等	适中	内存更多的CPU	量化模型中准确性较好的选择
Q8_0	高	适中	有足够显存的CPU或GPU	量化模型中准确性最高的选择
IQ3_XS	非常低	非常低	超低内存设备	极致内存效率和低准确性
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备进行优化

✨ 主要特性

多语言支持：支持英语和韩语。
多种模型格式：提供BF16、F16、量化模型等多种格式，满足不同硬件和内存需求。
高性能推理：在数学和编码等推理任务中表现出色。
广泛的部署框架：可在TensorRT-LLM、vLLM等多种框架中进行推理。

📦 安装指南

文档未提供具体安装步骤，可参考EXAONE Deep GitHub获取更多关于推理框架的详细信息。

💻 使用示例

文档未提供代码示例。

📚 详细文档

包含的文件及详情

`EXAONE-Deep-2.4B-bf16.gguf`

模型权重以BF16保存。
如果你想将模型重新量化为不同格式，请使用此文件。
如果你的设备支持BF16加速，则最佳选择。

`EXAONE-Deep-2.4B-f16.gguf`

模型权重以F16存储。
如果你的设备支持FP16，特别是当BF16不可用时，请使用此文件。

`EXAONE-Deep-2.4B-bf16-q8_0.gguf`

输出和嵌入保持为BF16。
所有其他层量化为Q8_0。
如果你的设备支持BF16，并且你想要量化版本，请使用此文件。

`EXAONE-Deep-2.4B-f16-q8_0.gguf`

输出和嵌入保持为F16。
所有其他层量化为Q8_0。

`EXAONE-Deep-2.4B-q4_k.gguf`

输出和嵌入量化为Q8_0。
所有其他层量化为Q4_K。
适用于内存有限的CPU推理。

`EXAONE-Deep-2.4B-q4_k_s.gguf`

最小的Q4_K变体，以牺牲准确性为代价减少内存使用。
最适合极低内存设置。

`EXAONE-Deep-2.4B-q6_k.gguf`

输出和嵌入量化为Q8_0。
所有其他层量化为Q6_K。

`EXAONE-Deep-2.4B-q8_0.gguf`

完全Q8量化的模型，以获得更好的准确性。
需要更多内存，但提供更高的精度。

`EXAONE-Deep-2.4B-iq3_xs.gguf`

IQ3_XS量化，针对极致内存效率进行了优化。
最适合超低内存设备。

`EXAONE-Deep-2.4B-iq3_m.gguf`

IQ3_M量化，提供中等块大小以提高准确性。
适用于低内存设备。

`EXAONE-Deep-2.4B-q4_0.gguf`

纯Q4_0量化，针对ARM设备进行了优化。
最适合低内存环境。
为获得更好的准确性，建议使用IQ4_NL。

测试LLM

如果你觉得这些模型有用，请点赞❤。也非常感谢你测试我的网络监控助手👉 Network Monitor Assitant。

💬 点击聊天图标（主页和仪表盘页面右下角）。选择一个大语言模型；在大语言模型类型TurboLLM -> FreeLLM -> TestLLM之间切换。

测试内容

我正在针对我的网络监控服务进行函数调用实验。使用小型开源模型。我关注的问题是“模型可以多小仍能正常工作”。

🟡 TestLLM – 使用llama.cpp在CPU虚拟机的6个线程上运行当前测试模型（加载大约需要15秒。推理速度相当慢，并且一次只处理一个用户提示 — 仍在努力扩展！）。如果你好奇，我很乐意分享其工作原理！

其他可用的AI助手

🟢 TurboLLM – 使用gpt-4o-mini，速度快！注意：由于OpenAI模型价格昂贵，令牌有限，但你可以登录或下载免费网络监控代理以获取更多令牌，或者使用TestLLM。

🔵 HugLLM – 运行开源Hugging Face模型，速度快，运行小型模型（≈8B），因此质量较低，可获得2倍更多令牌（取决于Hugging Face API可用性）。

模型介绍

我们推出了EXAONE Deep，它在包括数学和编码基准测试在内的各种推理任务中表现出卓越的能力，参数范围从2.4B到32B，由LG AI Research开发并发布。该模型在论文EXAONE Deep: Reasoning Enhanced Language Models中进行了描述，代码可在此处获取。评估结果表明：1) EXAONE Deep 2.4B优于其他类似规模的模型；2) EXAONE Deep 7.8B不仅优于类似规模的开放权重模型，还优于专有推理模型OpenAI o1-mini；3) EXAONE Deep 32B与领先的开放权重模型相比具有竞争力。

更多详细信息，请参考我们的文档、博客和GitHub。

模型参数

属性	详情
模型类型	EXAONE-Deep-2.4B
训练数据	未提及
参数量（不包括嵌入）	2.14B
层数	30
注意力头数量	GQA，32个Q头和8个KV头
词表大小	102,400
上下文长度	32,768个令牌
词嵌入绑定	是（与7.8B和32B模型不同）

评估结果

以下表格显示了数学和编码等推理任务的评估结果。完整的评估结果可在文档中找到。

模型	MATH-500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek-R1-Distill-Qwen-32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ-32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek-R1-Distill-Llama-70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek-R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9
EXAONE Deep 7.8B	94.8	70.0 / 83.3	59.6 / 76.7	89.9	62.6	55.2
DeepSeek-R1-Distill-Qwen-7B	92.8	55.5 / 83.3	38.5 / 56.7	79.7	49.1	37.6
DeepSeek-R1-Distill-Llama-8B	89.1	50.4 / 80.0	33.6 / 53.3	74.1	49.0	39.6
OpenAI o1-mini	90.0	63.6 / 80.0	54.8 / 66.7	84.4	60.0	53.8
EXAONE Deep 2.4B	92.3	52.5 / 76.7	47.9 / 73.3	79.2	54.3	46.6
DeepSeek-R1-Distill-Qwen-1.5B	83.9	28.9 / 52.7	23.9 / 36.7	65.6	33.8	16.9

部署

EXAONE Deep模型可以在各种框架中进行推理，例如：

TensorRT-LLM
vLLM
SGLang
llama.cpp
Ollama
LM-Studio

更多关于推理框架的详细信息，请参考我们的EXAONE Deep GitHub。

量化

我们提供了使用AWQ预量化的EXAONE Deep模型，以及几种GGUF格式的量化类型。请参考我们的EXAONE Deep集合以找到相应的量化模型。

使用指南

为了达到预期的性能，我们建议使用以下配置：

确保模型以<thought>开始进行推理步骤。如果省略它，模型的输出质量可能会下降。你可以通过使用tokenizer.apply_chat_template()并设置add_generation_prompt=True轻松应用此功能。请查看快速开始部分的示例代码。
EXAONE Deep模型的推理步骤通常包含在<thought> ... </thought>中，并且通常有很多令牌，因此在多轮对话中可能需要删除之前的推理步骤。提供的分词器会自动处理此问题。
避免使用系统提示，并在用户提示中构建指令。
额外的指令有助于模型进行更深入的推理，从而使模型生成更好的输出。
- 对于数学问题，指令**“请逐步推理，并将最终答案放在\boxed{}中。”** 很有帮助。
- 有关我们评估设置（包括提示）的更多信息，请参考我们的文档。
在我们的评估中，我们使用temperature=0.6和top_p=0.95进行生成。
评估模型时，建议多次测试以准确评估预期性能。

局限性

EXAONE语言模型有一定的局限性，偶尔可能会生成不适当的响应。语言模型根据令牌的输出概率生成响应，这是在从训练数据中学习时确定的。虽然我们已尽力从训练数据中排除个人、有害和有偏见的信息，但仍可能包含一些有问题的内容，从而可能导致不良响应。请注意，EXAONE语言模型生成的文本并不反映LG AI Research的观点。

可能会生成不适当的答案，其中包含个人、有害或其他不适当的信息。
可能会生成有偏见的响应，与年龄、性别、种族等相关。
生成的响应严重依赖于训练数据的统计信息，这可能导致生成语义或语法错误的句子。
由于模型不反映最新信息，响应可能是错误或矛盾的。

LG AI Research致力于减少EXAONE语言模型可能带来的潜在风险。用户在使用EXAONE语言模型时，不得从事任何可能诱导生成违反LG AI道德原则的不适当输出的恶意活动（例如，输入非法信息）。

🔧 技术细节

文档未提供具体技术实现细节。

📄 许可证

该模型遵循EXAONE AI Model License Agreement 1.1 - NC许可协议。

引用

@article{exaone-deep,
  title={EXAONE Deep: Reasoning Enhanced Language Models},
  author={{LG AI Research}},
  journal={arXiv preprint arXiv:2503.12524},
  year={2025}
}