GLM-Z1-9B-0414开源模型 - 免费部署，资源受限场景下实现出色数学推理

首页

GLM Z1 9B 0414

由 THUDM 开发

GLM-4-Z1-9B-0414是GLM家族的新一代开源模型，具备优秀的数学推理与通用能力，适合资源受限场景下的轻量部署。

大型语言模型

Transformers

支持多种语言开源协议:MIT #深度推理 #数学代码增强 #轻量部署

下载量 3,456

发布时间 : 4/8/2025

模型简介

GLM-4-Z1-9B-0414是一个9B参数规模的开源模型，展现出优秀的数学推理与通用能力，整体性能居同规模开源模型领先水平。

模型特点

轻量部署

9B参数规模，适合资源受限场景下的轻量部署。

数学推理

展现出优秀的数学推理能力，适合解决数学、代码、逻辑类任务。

通用能力

整体性能居同规模开源模型领先水平，具备良好的通用能力。

模型能力

文本生成

数学推理

代码生成

逻辑推理

使用案例

数学问题解决

数学题目解答

解决复杂的数学题目，如求取值范围等。

在数学推理任务中表现优异。

代码生成

工程代码生成

生成工程代码，支持函数调用等任务。

在工程代码生成任务中表现良好。

🚀 GLM-4-Z1-9B-0414

GLM-4-Z1-9B-0414是GLM系列的新一代开源模型，具有强大的文本生成能力。它在多个领域表现出色，尤其在数学推理和一般任务中展现出优秀的性能，为用户提供了高效且强大的解决方案。

✨ 主要特性

GLM家族迎来了新一代开源模型——GLM-4-32B-0414系列，该系列模型拥有320亿参数。其性能可与OpenAI的GPT系列以及DeepSeek的V3/R1系列相媲美，并且支持非常便捷的本地部署功能。GLM-4-32B-Base-0414在15T高质量数据上进行了预训练，其中包含大量推理型合成数据，为后续的强化学习扩展奠定了基础。在后续训练阶段，除了针对对话场景进行人类偏好对齐之外，还运用拒绝采样和强化学习等技术，提升了模型在指令遵循、工程代码和函数调用方面的性能，强化了执行代理任务所需的核心能力。GLM-4-32B-0414在工程代码、工件生成、函数调用、基于搜索的问答和报告生成等领域取得了良好的效果。在某些基准测试中，其表现甚至可与GPT-4o和DeepSeek-V3-0324（671B）等更大规模的模型相抗衡。

GLM-Z1-32B-0414是一款具备深度思考能力的推理模型。它基于GLM-4-32B-0414，通过冷启动和扩展强化学习进行开发，并在涉及数学、代码和逻辑的任务上对模型进行了进一步训练。与基础模型相比，GLM-Z1-32B-0414显著提升了数学能力和解决复杂任务的能力。在训练过程中，还引入了基于成对排序反馈的通用强化学习，进一步增强了模型的通用能力。

GLM-Z1-Rumination-32B-0414是一款具有深度思考能力的深度推理模型（以OpenAI的深度研究为基准）。与典型的深度思考模型不同，该思考模型采用更长时间的深度思考来解决更开放和复杂的问题（例如，撰写两个城市人工智能发展的比较分析及其未来发展规划）。思考模型在深度思考过程中集成了搜索工具，以处理复杂任务，并通过利用多种基于规则的奖励来指导和扩展端到端强化学习进行训练。Z1-Rumination在研究型写作和复杂检索任务方面表现出显著的改进。

最后，GLM-Z1-9B-0414带来了惊喜。采用上述一系列技术训练了一个90亿参数的小模型，同时保持了开源传统。尽管规模较小，但GLM-Z1-9B-0414在数学推理和一般任务中仍展现出出色的能力。其整体性能在同规模的开源模型中已处于领先水平。特别是在资源受限的场景下，该模型在效率和效果之间实现了出色的平衡，为寻求轻量级部署的用户提供了强大的选择。

📦 安装指南

使用此模型需确保 transforemrs>=4.51.3。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_PATH = "THUDM/GLM-4-Z1-9B-0414"

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")

message = [{"role": "user", "content": "Let a, b be positive real numbers such that ab = a + b + 3. Determine the range of possible values for a + b."}]

inputs = tokenizer.apply_chat_template(
    message,
    return_tensors="pt",
    add_generation_prompt=True,
    return_dict=True,
).to(model.device)

generate_kwargs = {
    "input_ids": inputs["input_ids"],
    "attention_mask": inputs["attention_mask"],
    "max_new_tokens": 4096,
    "do_sample": False,
}
out = model.generate(**generate_kwargs)
print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

📚 详细文档

一、采样参数

属性	详情
temperature	推荐值为 0.6，用于平衡创造性和稳定性
top_p	推荐值为 0.95，采样的累积概率阈值
top_k	推荐值为 40，过滤稀有标记，同时保持多样性
max_new_tokens	推荐值为 30000，为思考留出足够的标记

二、强制思考

在第一行添加 <think>\n：确保模型在回复前进行思考。
使用 chat_template.jinja 时，会自动注入提示以强制执行此行为。

三、对话历史修剪

仅保留最终用户可见的回复。
隐藏的思考内容不应保存到历史记录中，以减少干扰，这在 chat_template.jinja 中已经实现。

四、处理长上下文（YaRN）

当输入长度超过 8192 个标记时，考虑启用 YaRN（Rope Scaling）。
在支持的框架中，在 config.json 中添加以下代码片段：

"rope_scaling": {
    "type": "yarn",
    "factor": 4.0,
    "original_max_position_embeddings": 32768
}

静态 YaRN 适用于所有文本。它可能会稍微降低短文本的性能，因此根据需要启用。

📄 许可证

本项目采用 MIT 许可证。

📖 引用说明

如果您觉得我们的工作有用，请考虑引用以下论文：

@misc{glm2024chatglm,
      title={ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools}, 
      author={Team GLM and Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang and Jiale Cheng and Jiayi Gui and Jie Tang and Jing Zhang and Juanzi Li and Lei Zhao and Lindong Wu and Lucen Zhong and Mingdao Liu and Minlie Huang and Peng Zhang and Qinkai Zheng and Rui Lu and Shuaiqi Duan and Shudan Zhang and Shulin Cao and Shuxun Yang and Weng Lam Tam and Wenyi Zhao and Xiao Liu and Xiao Xia and Xiaohan Zhang and Xiaotao Gu and Xin Lv and Xinghan Liu and Xinyi Liu and Xinyue Yang and Xixuan Song and Xunkai Zhang and Yifan An and Yifan Xu and Yilin Niu and Yuantao Yang and Yueyan Li and Yushi Bai and Yuxiao Dong and Zehan Qi and Zhaoyu Wang and Zhen Yang and Zhengxiao Du and Zhenyu Hou and Zihan Wang},
      year={2024},
      eprint={2406.12793},
      archivePrefix={arXiv},
      primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'}
}