模型简介
模型特点
模型能力
使用案例
🚀 EXAONE-4.0-1.2B GGUF模型
EXAONE-4.0-1.2B GGUF模型整合了非推理模式和推理模式,兼具EXAONE 3.5的出色可用性和EXAONE Deep的高级推理能力。其多语言能力得到扩展,除英语和韩语外,还支持西班牙语。该模型有32B和1.2B两种尺寸,可满足不同场景需求。
🚀 快速开始
你需要安装从原始版本分叉而来的transformers
库,该库可在我们的PR中获取。一旦此PR合并并发布,我们将更新此部分内容。
你可以通过以下命令安装支持EXAONE 4.0的最新版本transformers
:
pip install git+https://github.com/lgai-exaone/transformers@add-exaone4
基础用法
对于一般使用场景,你可以使用以下示例代码调用EXAONE 4.0模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "LGAI-EXAONE/EXAONE-4.0-1.2B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="bfloat16",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# choose your prompt
prompt = "Explain how wonderful you are"
prompt = "Explica lo increíble que eres"
prompt = "너가 얼마나 대단한지 설명해 봐"
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=128,
do_sample=False,
)
print(tokenizer.decode(output[0]))
高级用法
推理模式
EXAONE 4.0模型具备处理复杂问题的推理能力。你可以通过在tokenizer
中使用enable_thinking=True
参数来激活推理模式,该参数会打开一个以<think>
标签开头的推理块,但不会关闭它。
messages = [
{"role": "user", "content": "Which one is bigger, 3.12 vs 3.9?"}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
enable_thinking=True,
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.6,
top_p=0.95
)
print(tokenizer.decode(output[0]))
⚠️ 重要提示
推理模式下的模型生成结果可能会受到采样参数的敏感影响,因此为了获得更好的质量,请参考使用指南。
智能工具调用
EXAONE 4.0模型可以作为智能代理,利用其工具调用能力。你可以为模型提供工具模式,以实现有效的工具调用。
import random
def roll_dice(max_num: int):
return random.randint(1, max_num)
tools = [
{
"type": "function",
"function": {
"name": "roll_dice",
"description": "Roll a dice with the number 1 to N. User can select the number N.",
"parameters": {
"type": "object",
"required": ["max_num"],
"properties": {
"max_num": {
"type": "int",
"description": "Max number of the dice"
}
}
}
}
}
]
messages = [
{"role": "user", "content": "Roll D6 dice twice!"}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
tools=tools,
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=1024,
do_sample=True,
temperature=0.6,
top_p=0.95,
)
print(tokenizer.decode(output[0]))
✨ 主要特性
- 混合模式:集成非推理模式和推理模式,兼顾可用性和推理能力。
- 多语言支持:支持英语、韩语和西班牙语。
- 智能工具调用:可作为智能代理,调用工具解决问题。
📦 安装指南
TensorRT-LLM部署
TensorRT-LLM在最新提交中正式支持EXAONE 4.0模型。在其发布之前,你需要克隆TensorRT-LLM仓库并从源代码进行构建。
git clone https://github.com/NVIDIA/TensorRT-LLM.git
克隆仓库后,你需要构建源代码以进行安装。请参考官方文档来构建TensorRT-LLM环境。
你可以按照以下步骤运行TensorRT-LLM服务器:
- 编写额外的配置YAML文件
# extra_llm_api_config.yaml
kv_cache_config:
enable_block_reuse: false
- 使用配置运行服务器
trtllm-serve serve [MODEL_PATH] --backend pytorch --extra_llm_api_options extra_llm_api_config.yaml
更多详细信息,请参考TensorRT-LLM中EXAONE的文档。
⚠️ 重要提示
目前包括
vllm
和sglang
在内的其他推理引擎尚未正式支持EXAONE 4.0。我们将在这些库更新后尽快进行更新。
📚 详细文档
模型生成细节
该模型使用llama.cpp在提交版本bf9087f5
下生成。
点击此处获取选择合适GGUF模型格式的信息。
模型配置
属性 | 详情 |
---|---|
模型参数数量(不包括嵌入层) | 10.7亿 |
层数 | 30 |
注意力头数量 | GQA,32头和8个键值头 |
词表大小 | 102,400 |
上下文长度 | 65,536个标记 |
模型架构变更
在EXAONE 4.0架构中,与之前的EXAONE模型相比,我们进行了以下新的架构更改:
- 混合注意力机制:对于32B模型,我们采用混合注意力方案,将局部注意力(滑动窗口注意力)与全局注意力(全注意力)以3:1的比例结合。为了更好地理解全局上下文,我们在全局注意力中不使用旋转位置嵌入(RoPE)。
- QK重排序归一化:我们通过直接对注意力和多层感知机(MLP)的输出应用层归一化(LayerNorm),重新调整了传统预层归一化(Pre-LN)方案中LayerNorm的位置,并在Q和K投影之后添加了均方根归一化(RMS)。尽管这会消耗更多的计算资源,但有助于在下游任务中取得更好的性能。
更多详细信息,请参考我们的技术报告、HuggingFace论文、博客和GitHub。
🔧 技术细节
以下表格展示了每个模型在推理和非推理模式下的评估结果。评估细节可在技术报告中找到。
- ✅ 表示模型具有混合推理能力,可根据需求选择推理/非推理模式。
- 为了评估韩语的实用和专业知识,我们采用了KMMLU-Redux和KMMLU-Pro两个基准测试。这两个数据集均已公开发布!
32B推理模式评估结果
EXAONE 4.0 32B | Phi 4 reasoning-plus | Magistral Small-2506 | Qwen 3 32B | Qwen 3 235B | DeepSeek R1-0528 | |
---|---|---|---|---|---|---|
模型大小 | 320亿 | 147亿 | 236亿 | 328亿 | 2350亿 | 6710亿 |
混合推理能力 | ✅ | ✅ | ✅ | |||
世界知识 - MMLU-Redux | 92.3 | 90.8 | 86.8 | 90.9 | 92.7 | 93.4 |
世界知识 - MMLU-Pro | 81.8 | 76.0 | 73.4 | 80.0 | 83.0 | 85.0 |
世界知识 - GPQA-Diamond | 75.4 | 68.9 | 68.2 | 68.4 | 71.1 | 81.0 |
数学/编程 - AIME 2025 | 85.3 | 78.0 | 62.8 | 72.9 | 81.5 | 87.5 |
数学/编程 - HMMT Feb 2025 | 72.9 | 53.6 | 43.5 | 50.4 | 62.5 | 79.4 |
数学/编程 - LiveCodeBench v5 | 72.6 | 51.7 | 55.8 | 65.7 | 70.7 | 75.2 |
数学/编程 - LiveCodeBench v6 | 66.7 | 47.1 | 47.4 | 60.1 | 58.9 | 70.3 |
指令遵循 - IFEval | 83.7 | 84.9 | 37.9 | 85.0 | 83.4 | 80.8 |
指令遵循 - Multi-IF (EN) | 73.5 | 56.1 | 27.4 | 73.4 | 73.4 | 72.0 |
智能工具调用 - BFCL-v3 | 63.9 | N/A | 40.4 | 70.3 | 70.8 | 64.7 |
智能工具调用 - Tau-bench (Airline) | 51.5 | N/A | 38.5 | 34.5 | 37.5 | 53.5 |
智能工具调用 - Tau-bench (Retail) | 62.8 | N/A | 10.2 | 55.2 | 58.3 | 63.9 |
多语言 - KMMLU-Pro | 67.7 | 55.8 | 51.5 | 61.4 | 68.1 | 71.7 |
多语言 - KMMLU-Redux | 72.7 | 62.7 | 54.6 | 67.5 | 74.5 | 77.0 |
多语言 - KSM | 87.6 | 79.8 | 71.9 | 82.8 | 86.2 | 86.7 |
多语言 - MMMLU (ES) | 85.6 | 84.3 | 68.9 | 82.8 | 86.7 | 88.2 |
多语言 - MATH500 (ES) | 95.8 | 94.2 | 83.5 | 94.3 | 95.1 | 96.0 |
32B非推理模式评估结果
EXAONE 4.0 32B | Phi 4 | Mistral-Small-2506 | Gemma 3 27B | Qwen3 32B | Qwen3 235B | Llama-4-Maverick | DeepSeek V3-0324 | |
---|---|---|---|---|---|---|---|---|
模型大小 | 320亿 | 147亿 | 240亿 | 274亿 | 328亿 | 2350亿 | 4020亿 | 6710亿 |
混合推理能力 | ✅ | ✅ | ✅ | |||||
世界知识 - MMLU-Redux | 89.8 | 88.3 | 85.9 | 85.0 | 85.7 | 89.2 | 92.3 | 92.3 |
世界知识 - MMLU-Pro | 77.6 | 70.4 | 69.1 | 67.5 | 74.4 | 77.4 | 80.5 | 81.2 |
世界知识 - GPQA-Diamond | 63.7 | 56.1 | 46.1 | 42.4 | 54.6 | 62.9 | 69.8 | 68.4 |
数学/编程 - AIME 2025 | 35.9 | 17.8 | 30.2 | 23.8 | 20.2 | 24.7 | 18.0 | 50.0 |
数学/编程 - HMMT Feb 2025 | 21.8 | 4.0 | 16.9 | 10.3 | 9.8 | 11.9 | 7.3 | 29.2 |
数学/编程 - LiveCodeBench v5 | 43.3 | 24.6 | 25.8 | 27.5 | 31.3 | 35.3 | 43.4 | 46.7 |
数学/编程 - LiveCodeBench v6 | 43.1 | 27.4 | 26.9 | 29.7 | 28.0 | 31.4 | 32.7 | 44.0 |
指令遵循 - IFEval | 84.8 | 63.0 | 77.8 | 82.6 | 83.2 | 83.2 | 85.4 | 81.2 |
指令遵循 - Multi-IF (EN) | 71.6 | 47.7 | 63.2 | 72.1 | 71.9 | 72.5 | 77.9 | 68.3 |
长上下文 - HELMET | 58.3 | N/A | 61.9 | 58.3 | 54.5 | 63.3 | 13.7 | N/A |
长上下文 - RULER | 88.2 | N/A | 71.8 | 66.0 | 85.6 | 90.6 | 2.9 | N/A |
长上下文 - LongBench v1 | 48.1 | N/A | 51.5 | 51.5 | 44.2 | 45.3 | 34.7 | N/A |
智能工具调用 - BFCL-v3 | 65.2 | N/A | 57.7 | N/A |
📄 许可证
本项目采用exaone许可证。
🎉 许可证已更新!我们很高兴地宣布推出了更加灵活的许可条款 🤗 ✈️ 你可以在FriendliAI上进行试用。



