EXAONE-Deep-7.8B-GGUF开源模型 - 支持英韩语，轻松完成文本生成

首页

EXAONE Deep 7.8B GGUF

由 Mungert 开发

采用IQ-DynamicGate技术的超低位量化（1-2比特）的7.8B参数模型，支持英语和韩语文本生成任务。

大型语言模型支持多种语言开源协议:其他 #超低位量化 #动态精度分配 #边缘设备优化

下载量 1,791

发布时间 : 3/19/2025

模型简介

EXAONE-Deep-7.8B是一个基于LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct微调的模型，采用创新的IQ-DynamicGate技术进行超低位量化，适用于内存受限的部署环境和边缘设备。

模型特点

IQ-DynamicGate技术

采用精度自适应量化技术，在超低位模型（1-2比特）中显著提升性能。

动态精度分配

前25%和后25%的层使用IQ4_XS，中间50%的层使用IQ2_XXS/IQ3_S，优化效率和精度。

关键组件保护

嵌入层和输出层使用Q5_K，减少38%的误差传播。

极致内存效率

适用于内存受限的部署环境，支持CPU和边缘设备。

模型能力

文本生成

多语言支持（英语、韩语）

超低位量化推理

使用案例

内存受限的部署环境

边缘设备推理

在内存有限的边缘设备上运行文本生成任务。

显著降低内存占用，保持合理精度。

研究与应用

超低位量化研究

探索1-2比特量化技术在大型语言模型中的应用。

提供量化性能对比数据，支持研究需求。

🚀 EXAONE-Deep-7.8B GGUF模型

EXAONE-Deep-7.8B GGUF模型是LG AI Research开发的一系列语言模型，具有超低比特量化等先进技术，在数学和编码等推理任务中表现出色。该模型提供了多种格式以适应不同的硬件和内存需求，可广泛应用于AI网络监控等领域。

🚀 快速开始

我们推荐使用transformers v4.43.1或更高版本。以下是使用该模型进行对话推理的代码示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True    # 选择流式输出选项

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 选择你的提示：
#   数学示例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.

Please reason step by step, and put your final answer within \boxed{}."""
#   韩语多项选择题示例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.

Options :
A) 120
B) 125
C) 130
D) 135
E) 140
 
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

if streaming:
    streamer = TextIteratorStreamer(tokenizer)
    thread = Thread(target=model.generate, kwargs=dict(
        input_ids=input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        streamer=streamer
    ))
    thread.start()

    for text in streamer:
        print(text, end="", flush=True)
else:
    output = model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
    )
    print(tokenizer.decode(output[0]))

⚠️ 重要提示

EXAONE Deep模型经过优化配置训练，因此建议遵循使用指南部分以实现最佳性能。

✨ 主要特性

超低比特量化与IQ-DynamicGate (1 - 2比特)

我们最新的量化方法为超低比特模型（1 - 2比特）引入了精度自适应量化，并在Llama - 3 - 8B上通过基准测试证明了其改进效果。这种方法采用特定层策略，在保持极高内存效率的同时保留准确性。

基准测试环境

所有测试均在Llama - 3 - 8B - Instruct上进行，使用以下条件：

标准困惑度评估流程
2048令牌上下文窗口
所有量化方式使用相同的提示集

方法

动态精度分配：
- 前/后25%的层 → IQ4_XS（选定层）
- 中间50% → IQ2_XXS/IQ3_S（提高效率）
关键组件保护：
- 嵌入/输出层使用Q5_K
- 与标准1 - 2比特量化相比，误差传播降低38%

量化性能比较（Llama - 3 - 8B）

量化方式	标准困惑度	DynamicGate困惑度	困惑度变化	标准大小	DG大小	大小变化	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

关键改进：

🔥 IQ1_M的困惑度大幅降低43.9%（从27.46降至15.41）
🚀 IQ2_S的困惑度降低36.9%，同时仅增加0.2GB
⚡ IQ1_S尽管采用1比特量化，但仍保持39.7%的更高准确性

权衡：

所有变体的大小均有适度增加（0.1 - 0.3GB）
推理速度保持相近（差异小于5%）

何时使用这些模型

📌 将模型装入GPU显存

✔ 内存受限的部署

✔ 可以容忍1 - 2比特误差的CPU和边缘设备

✔ 超低比特量化研究

选择正确的模型格式

选择正确的模型格式取决于你的硬件能力和内存限制。

BF16（脑浮点16） – 若支持BF16加速则使用

一种16位浮点格式，专为更快的计算而设计，同时保留良好的精度。
提供与FP32相似的动态范围，但内存使用更低。
若你的硬件支持BF16加速（检查设备规格），则推荐使用。
与FP32相比，适用于高性能推理且内存占用减少。

📌 使用BF16的情况： ✔ 你的硬件具有原生BF16支持（例如，较新的GPU、TPU）。 ✔ 你希望在节省内存的同时获得更高的精度。 ✔ 你计划将模型重新量化为另一种格式。

📌 避免使用BF16的情况： ❌ 你的硬件不支持BF16（可能会回退到FP32并运行更慢）。 ❌ 你需要与缺乏BF16优化的旧设备兼容。

F16（浮点16） – 比BF16更广泛支持

一种16位浮点格式，精度较高，但取值范围小于BF16。
适用于大多数支持FP16加速的设备（包括许多GPU和一些CPU）。
数值精度略低于BF16，但通常足以进行推理。

📌 使用F16的情况： ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、内存使用和准确性之间取得平衡。 ✔ 你在GPU或其他针对FP16计算优化的设备上运行。

📌 避免使用F16的情况： ❌ 你的设备缺乏原生FP16支持（可能运行比预期更慢）。 ❌ 你有内存限制。

量化模型（Q4_K、Q6_K、Q8等） – 用于CPU和低显存推理

量化可在尽可能保持准确性的同时减小模型大小和内存使用。

低比特模型（Q4_K） → 最适合最小内存使用，可能精度较低。
高比特模型（Q6_K、Q8_0） → 准确性更好，需要更多内存。

📌 使用量化模型的情况： ✔ 你在CPU上运行推理，需要优化的模型。 ✔ 你的设备显存较低，无法加载全精度模型。 ✔ 你希望在保持合理准确性的同时减少内存占用。

📌 避免使用量化模型的情况： ❌ 你需要最高准确性（全精度模型更适合）。 ❌ 你的硬件有足够的显存用于更高精度的格式（BF16/F16）。

极低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

这些模型针对极端内存效率进行了优化，非常适合低功耗设备或大规模部署，其中内存是关键限制因素。

IQ3_XS：超低比特量化（3比特），具有极端内存效率。
- 用例：最适合超低内存设备，即使Q4_K也太大的情况。
- 权衡：与高比特量化相比，准确性较低。
IQ3_S：小块大小，实现最大内存效率。
- 用例：最适合低内存设备，当IQ3_XS过于激进时。
IQ3_M：中等块大小，比IQ3_S具有更好的准确性。
- 用例：适用于低内存设备，当IQ3_S限制过多时。
Q4_K：4比特量化，具有逐块优化以提高准确性。
- 用例：最适合低内存设备，当Q6_K太大时。
Q4_0：纯4比特量化，针对ARM设备进行了优化。
- 用例：最适合基于ARM的设备或低内存环境。

模型格式选择总结表

模型格式	精度	内存使用	设备要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	减少内存的高速推理
F16	高	高	支持FP16的设备	当BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低显存设备	内存受限环境的最佳选择
Q6_K	中等	适中	内存较多的CPU	量化模型中准确性较好的选择
Q8_0	高	适中	有足够显存的CPU或GPU	量化模型中准确性最高的选择
IQ3_XS	非常低	非常低	超低内存设备	极端内存效率和低准确性
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备进行优化

📦 安装指南

文档未提及具体安装步骤，可参考相关框架文档进行安装。

💻 使用示例

基础用法

# 以下是使用模型进行推理的基础代码示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True    # 选择流式输出选项

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 选择你的提示：
#   数学示例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.

Please reason step by step, and put your final answer within \boxed{}."""
#   韩语多项选择题示例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.

Options :
A) 120
B) 125
C) 130
D) 135
E) 140
 
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

if streaming:
    streamer = TextIteratorStreamer(tokenizer)
    thread = Thread(target=model.generate, kwargs=dict(
        input_ids=input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        streamer=streamer
    ))
    thread.start()

    for text in streamer:
        print(text, end="", flush=True)
else:
    output = model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
    )
    print(tokenizer.decode(output[0]))

高级用法

文档未提及高级用法相关代码示例，可根据具体需求对基础代码进行扩展。

📚 详细文档

模型信息

属性	详情
基础模型	LGAI - EXAONE/EXAONE - 3.5 - 7.8B - Instruct
基础模型关系	微调
许可证	exaone
许可证名称	exaone
许可证链接	LICENSE
语言	英语、韩语
标签	lg - ai、exaone、exaone - deep
任务类型	文本生成
库名称	transformers

包含文件及详情

`EXAONE - Deep - 7.8B - bf16.gguf`

模型权重保存为BF16格式。
如果你想将模型重新量化为不同格式，请使用此文件。
如果你的设备支持BF16加速，则最佳。

`EXAONE - Deep - 7.8B - f16.gguf`

模型权重存储为F16格式。
如果你的设备支持FP16，特别是当BF16不可用时，请使用此文件。

`EXAONE - Deep - 7.8B - bf16 - q8_0.gguf`

输出和嵌入保持为BF16格式。
所有其他层量化为Q8_0。
如果你的设备支持BF16，并且你想要量化版本，请使用此文件。

`EXAONE - Deep - 7.8B - f16 - q8_0.gguf`

输出和嵌入保持为F16格式。
所有其他层量化为Q8_0。

`EXAONE - Deep - 7.8B - q4_k.gguf`

输出和嵌入量化为Q8_0。
所有其他层量化为Q4_K。
适合内存有限的CPU推理。

`EXAONE - Deep - 7.8B - q4_k_s.gguf`

最小的Q4_K变体，以牺牲准确性为代价减少内存使用。
最适合极低内存设置。

`EXAONE - Deep - 7.8B - q6_k.gguf`

输出和嵌入量化为Q8_0。
所有其他层量化为Q6_K。

`EXAONE - Deep - 7.8B - q8_0.gguf`

完全Q8量化的模型，准确性更好。
需要更多内存，但提供更高的精度。

`EXAONE - Deep - 7.8B - iq3_xs.gguf`

IQ3_XS量化，针对极端内存效率进行了优化。
最适合超低内存设备。

`EXAONE - Deep - 7.8B - iq3_m.gguf`

IQ3_M量化，提供中等块大小以提高准确性。
适用于低内存设备。

`EXAONE - Deep - 7.8B - q4_0.gguf`

纯Q4_0量化，针对ARM设备进行了优化。
最适合低内存环境。
若追求更高准确性，优先选择IQ4_NL。

测试模型

测试说明

如果你发现这些模型有用，请点击“点赞”！帮助测试AI驱动的网络监控助手，进行量子就绪安全检查： 👉 免费网络监控器

测试方法

点击任何页面右下角的聊天图标。
选择一个AI助手类型：
- TurboLLM (GPT - 4 - mini)
- FreeLLM (开源)
- TestLLM (仅实验性CPU)

测试内容

我正在突破小型开源模型在AI网络监控方面的极限，具体包括：

针对实时网络服务的函数调用
模型可以多小，同时仍能处理：
- 自动化Nmap扫描
- 量子就绪检查
- Metasploit集成

各助手特点

🟡 TestLLM – 当前实验模型（llama.cpp在6个CPU线程上）：
- ✅ 零配置设置
- ⏳ 30秒加载时间（推理慢，但无API成本）
- 🔧 寻求帮助！ 如果你对边缘设备AI感兴趣，让我们合作！
🟢 TurboLLM – 使用gpt - 4 - mini进行：
- 实时网络诊断
- 自动化渗透测试 (Nmap/Metasploit)
- 🔑 通过下载我们的免费网络监控代理获取更多令牌
🔵 HugLLM – 开源模型（约80亿参数）：
- 比TurboLLM多2倍令牌
- AI驱动的日志分析
- 🌐 在Hugging Face推理API上运行

测试用的AI命令示例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"

评估结果

模型	MATH - 500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek - R1 - Distill - Qwen - 32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ - 32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek - R1 - Distill - Llama - 70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek - R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9
EXAONE Deep 7.8B	94.8	70.0 / 83.3	59.6 / 76.7	89.9	62.6	55.2
DeepSeek - R1 - Distill - Qwen - 7B	92.8	55.5 / 83.3	38.5 / 56.7	79.7	49.1	37.6
DeepSeek - R1 - Distill - Llama - 8B	89.1	50.4 / 80.0	33.6 / 53.3	74.1	49.0	39.6
OpenAI o1 - mini	90.0	63.6 / 80.0	54.8 / 66.7	84.4	60.0	53.8
EXAONE Deep 2.4B	92.3	52.5 / 76.7	47.9 / 73.3	79.2	54.3	46.6
DeepSeek - R1 - Distill - Qwen - 1.5B	83.9	28.9 / 52.7	23.9 / 36.7	65.6	33.8	16.9

部署

EXAONE Deep模型可以在各种框架中进行推理，例如：

TensorRT - LLM
vLLM
SGLang
llama.cpp
Ollama
LM - Studio

更多关于推理框架的详细信息，请参考[EXAONE Deep GitHub](https://github.com/LG - AI - EXAONE/EXAONE - Deep)。

量化

我们提供了使用AWQ预量化的EXAONE Deep模型，以及几种GGUF格式的量化类型。请参考[EXAONE Deep集合](https://huggingface.co/collections/LGAI - EXAONE/exaone - deep - 67d119918816ec6efa79a4aa)以找到相应的量化模型。

使用指南

为了实现预期的性能，建议使用以下配置：

确保模型以<thought>\n开始进行推理步骤。省略它可能会降低模型的输出质量。可以通过使用tokenizer.apply_chat_template()并设置add_generation_prompt = True轻松应用此功能。请查看快速开始部分的示例代码。
EXAONE Deep模型的推理步骤通常包含在<thought>\n...\n</thought>中，可能有很多令牌，因此在多轮对话中可能需要删除之前的推理步骤。提供的分词器会自动处理此问题。
避免使用系统提示，在用户提示中构建指令。
额外的指令有助于模型更深入地推理，从而生成更好的输出。
- 对于数学问题，指令**"Please reason step by step, and put your final answer within \boxed{}."** 很有帮助。
- 有关我们评估设置（包括提示）的更多信息，请参考文档。
在评估中，我们使用temperature = 0.6和top_p = 0.95进行生成。
评估模型时，建议多次测试以准确评估预期性能。

局限性

EXAONE语言模型有一定的局限性，可能偶尔会生成不适当的响应。语言模型根据令牌的输出概率生成响应，这是在从训练数据中学习时确定的。虽然我们已尽力从训练数据中排除个人、有害和有偏见的信息，但仍可能包含一些有问题的内容，可能导致不良响应。请注意，EXAONE语言模型生成的文本并不反映LG AI Research的观点。

可能会生成不适当的答案，包含个人、有害或其他不适当的信息。
可能会生成有偏见的响应，与年龄、性别、种族等相关。
生成的响应严重依赖于训练数据的统计信息，可能导致生成语义或语法错误的句子。
由于模型不反映最新信息，响应可能是错误或矛盾的。

LG AI Research致力于减少EXAONE语言模型可能带来的潜在风险。用户在使用EXAONE语言模型时，不得进行任何可能诱导生成违反LG AI道德原则的不适当输出的恶意活动（例如，输入非法信息）。

🔧 技术细节

推理框架

EXAONE Deep模型可以在多种框架中进行推理，如TensorRT - LLM、vLLM、SGLang、llama.cpp、Ollama和LM - Studio。更多详细信息可参考[EXAONE Deep GitHub](https://github.com/LG - AI - EXAONE/EXAONE - Deep)。

量化技术

提供了使用AWQ预量化的EXAONE Deep模型，以及几种GGUF格式的量化类型。可在[EXAONE Deep集合](https://huggingface.co/collections/LGAI - EXAONE/exaone - deep - 67d119918816ec6efa79a4aa)中找到相应的量化模型。

📄 许可证

该模型遵循EXAONE AI模型许可协议1.1 - 非商业版。

引用

@article{exaone-deep,
  title={EXAONE Deep: Reasoning Enhanced Language Models},
  author={{LG AI Research}},
  journal={arXiv preprint arXiv:2503.12524},
  year={2025}
}