基础模型: LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
基础模型关系: 微调
许可证: 其他
许可证名称: exaone
许可证链接: LICENSE
语言:
- 英语
- 韩语
标签:
- lg-ai
- exaone
- exaone-deep
管道标签: 文本生成
库名称: transformers

QuantFactory/EXAONE-Deep-7.8B-GGUF
这是使用llama.cpp对LGAI-EXAONE/EXAONE-Deep-7.8B进行量化后的版本。
原始模型卡片
EXAONE-Deep-7.8B
简介
我们推出了EXAONE Deep系列模型,参数规模从2.4B到32B,在数学和编程等各类推理任务中展现出卓越能力。评估结果显示:1) EXAONE Deep 2.4B 超越同规模其他模型;2) EXAONE Deep 7.8B 不仅优于同规模开源模型,还超越了专有推理模型OpenAI o1-mini;3) EXAONE Deep 32B 与领先的开源模型相比具有竞争力。
更多细节请参阅我们的技术文档、博客和GitHub。
本仓库包含7.8B推理语言模型,具有以下特性:
- 参数量(不含嵌入层):6.98B
- 层数:32
- 注意力头数:GQA架构,32个查询头与8个键值头
- 词表大小:102,400
- 上下文长度:32,768 tokens
快速开始
建议使用transformers
v4.43.1或更高版本。
以下是对话式推理的代码示例:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread
model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = r"""设$x,y$和$z$为正实数,满足以下方程组:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
则$\left|\log_2(x^4y^3z^2)\right|$的值为$\tfrac{m}{n}$,其中$m$和$n$为互质正整数。求$m+n$。
请逐步推理,并将最终答案置于\boxed{}中。"""
prompt = r"""题目:数列$\{a_n\}$满足$a_1 = 2$,等差数列$\{b_n\}$满足$b_1 = 2$,且对所有自然数$n$有
\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]
求$\sum_{k=1}^{5} a_k$的值。
选项:
A) 120
B) 125
C) 130
D) 135
E) 140
请逐步推理,并将正确选项字母(A、B、C、D或E)置于\\boxed{}中。"""
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
if streaming:
streamer = TextIteratorStreamer(tokenizer)
thread = Thread(target=model.generate, kwargs=dict(
input_ids=input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
streamer=streamer
))
thread.start()
for text in streamer:
print(text, end="", flush=True)
else:
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
)
print(tokenizer.decode(output[0]))
注意
EXAONE Deep模型采用优化配置训练,建议遵循使用指南章节以获得最佳性能。
评估
下表展示数学和编程等推理任务的评估结果。完整结果请参阅技术文档。
模型 |
MATH-500 (pass@1) |
AIME 2024 (pass@1 / cons@64) |
AIME 2025 (pass@1 / cons@64) |
CSAT数学2025 (pass@1) |
GPQA钻石级 (pass@1) |
Live Code Bench (pass@1) |
部署
EXAONE Deep模型支持多种推理框架:
TensorRT-LLM
vLLM
SGLang
llama.cpp
Ollama
LM-Studio
详情请访问EXAONE Deep GitHub。
量化
我们提供AWQ和多种GGUF格式的预量化模型。请访问EXAONE Deep合集获取对应量化模型。
使用指南
为达到预期性能,建议采用以下配置:
- 确保模型以
<thought>\n
开始推理步骤,省略可能导致输出质量下降。可通过tokenizer.apply_chat_template()
的add_generation_prompt=True
参数实现。
- 多轮对话时需移除之前的推理步骤(模型分词器会自动处理)。
- 避免使用系统提示,直接在用户提示中构建指令。
- 附加指令能增强模型推理深度:
- 数学题建议添加**"请逐步推理,并将最终答案置于\boxed{}中。"**
- 评估时建议使用
temperature=0.6
和top_p=0.95
参数。
- 建议多次测试以准确评估模型性能。
局限性
EXAONE语言模型存在以下限制:
- 可能生成包含个人/有害/偏见内容的不当回答
- 依赖训练数据统计特性,可能产生语义或语法错误
- 不反映最新信息,可能导致事实性错误
LG AI Research致力于降低潜在风险,禁止用户诱导模型生成违反伦理原则的内容。
许可证
模型采用EXAONE AI模型许可协议1.1-NC授权。
引用
@article{exaone-deep,
title={EXAONE Deep:推理增强型语言模型},
author={{LG AI Research}},
journal={arXiv预印本 arXiv:2503.12524},
year={2025}
}
联系方式
LG AI Research技术支持:contact_us@lgresearch.ai