模型简介
模型特点
模型能力
使用案例
标签:
- unsloth 基础模型:
- THUDM/GLM-4-32B-0414 许可证: mit 语言:
- 中文
- 英文 管道标签: 文本生成 库名称: transformers
GLM-4-32B-0414
简介
GLM家族迎来新成员——GLM-4-32B-0414系列模型,拥有320亿参数。其性能可与OpenAI的GPT系列和DeepSeek的V3/R1系列相媲美,同时支持非常友好的本地部署特性。GLM-4-32B-Base-0414在15T高质量数据上进行预训练,其中包含大量推理型合成数据,为后续强化学习扩展奠定了基础。在后训练阶段,我们针对对话场景进行了人类偏好对齐,并采用拒绝采样和强化学习等技术,增强了模型在指令遵循、工程代码和函数调用方面的表现,从而强化了智能体任务所需的原子能力。GLM-4-32B-0414在工程代码、Artifact生成、函数调用、基于搜索的问答和报告生成等方面取得了良好效果。特别是在代码生成或特定问答任务等多项基准测试中,GLM-4-32B-Base-0414与GPT-4o和DeepSeek-V3-0324(671B)等更大规模的模型表现相当。
GLM-Z1-32B-0414是一款具备深度思考能力的推理模型。该模型基于GLM-4-32B-0414通过冷启动、扩展强化学习,并在数学、代码和逻辑等任务上进一步训练开发而成。与基础模型相比,GLM-Z1-32B-0414显著提升了数学能力和解决复杂任务的能力。在训练过程中,我们还引入了基于成对排序反馈的通用强化学习,进一步增强了模型的通用能力。
GLM-Z1-Rumination-32B-0414是一款具备反刍能力的深度推理模型(对标OpenAI的深度研究)。与典型的深度思考模型不同,反刍模型能够进行更深、更长时间的思考,以解决更开放和复杂的问题(例如撰写两座城市AI发展的对比分析及其未来发展计划)。Z1-Rumination通过扩展端到端强化学习进行训练,其响应由真实答案或评分标准进行分级,并能在深度思考过程中利用搜索工具处理复杂任务。该模型在研究式写作和复杂任务方面表现出显著提升。
最后,GLM-Z1-9B-0414是一个惊喜。我们采用了上述所有技术训练了一个小型模型(9B)。GLM-Z1-9B-0414在数学推理和通用任务上展现出卓越的能力,其综合表现在同规模开源模型中名列前茅。尤其在资源受限的场景下,该模型在效率和效果之间实现了出色的平衡,为寻求轻量级部署的用户提供了强有力的选择。
展示
动画生成
GLM-Z1-32B-0414 | GLM-4-32B-0414 |
编写一个Python程序,展示一个球在旋转的六边形内弹跳。球应受重力和摩擦力影响,并需与旋转的墙壁实现真实碰撞。
|
使用HTML模拟一个小球从旋转六边形中心释放的场景。考虑小球与六边形边缘的碰撞、小球所受重力,并假设所有碰撞均为完全弹性碰撞。
|
网页设计
GLM-4-32B-0414 | GLM-4-32B-0414 |
设计一个支持自定义函数绘制的画板,允许添加和删除自定义函数,并为函数分配颜色。
|
设计一个移动机器学习平台的UI,应包括训练任务、存储管理和个人统计界面。个人统计界面需使用图表展示用户一段时间内的资源使用情况。使用Tailwind CSS设计页面样式,并将这3个移动界面平铺在一个HTML页面上。
|
SVG生成
GLM-4-32B-0414 | GLM-4-32B-0414 |
使用SVG创作一幅烟雨江南的场景。
|
使用SVG展示LLM的训练过程。
|
基于搜索的写作
对于基于搜索的写作任务,我们使用以下系统提示让模型根据搜索结果作答:
请根据所给搜索返回结果对用户问题进行作答。
## 注意
1. 充分利用和整理收集到的信息,而不是简单的复制粘贴,生成符合用户要求且有深度的专业答案。
2. 所提供信息充分的情况下,你的回答需尽可能延长,从用户意图角度出发,提供具有足够信息量和多角度的回复。
3. 另外,并非所有的搜索结果都与用户问题密切相关,请仔细的甄别、筛选和利用。
4. 客观类问答的答案通常非常简短,你可以适当补充一到两句相关信息,以丰富内容。
5. 请确保你的回复格式美观、可读性强。对于多实体对比或列举,善用列表格式来帮助用户更好的理解信息。
6. 除非用户要求,否则你回答的语言请于用户提问语言保持一致。
7. 在适当情况下在句子末尾使用例如:【0†source】的格式引用搜索结果。
使用时,可通过RAG
或WebSearch
等方式获取搜索结果,并包装在observation
中,例如:
[
{
"role": "user",
"content": "探索儿童文学的普遍特征,重点关注其叙事技巧和主题倾向。这包括叙事技巧:儿童文学中常见的手法如第一人称、第三人称、全知叙述者及互动叙事,及其对年轻读者的影响。还包括主题倾向:儿童文学中反复出现的主题如成长、冒险、友谊和家庭,并分析这些主题如何影响儿童的认知和情感发展。此外,还应考虑其他普遍特征如拟人化、重复性语言、象征与隐喻的使用以及教育价值。请基于学术研究、儿童文学经典案例和专家意见提供详细的分析报告。"
},
{
"role": "observation",
"content": "【{id}†{title}†{url}】\n{content}"
},
...
]
对于上述提示,我们使用内部或外部搜索模型获取搜索结果。采用上述格式包装后,可生成如下分析报告:
儿童文学普遍特征分析报告
儿童文学作为一种专为儿童创作的文学类型,具有独特的艺术特征和表现手法。本报告将从叙事方法、主题倾向和其他普遍特征三个维度,结合学术研究、儿童文学经典案例和专家观点,全面分析儿童文学的普遍特征。
叙事方法及其对儿童读者的影响
儿童文学的叙事方法呈现出多样化特征,包括第一人称、第三人称、讲述和互动叙事等。这些不同的叙事视角和方法深刻影响着儿童的阅读体验和认知发展。
第一人称叙事在儿童文学中较为常见,以儿童主人公的视角展开故事。这种叙事方式拉近了读者与故事的距离,使儿童读者更容易代入角色并产生情感共鸣。例如,许多成长小说采用第一人称叙事,让主人公直接讲述自己的经历和感受,使读者仿佛与主人公一同经历成长的喜怒哀乐。这种叙事视角赋予作品强烈的真实感和亲切感,有助于培养儿童的共情能力【1†source】。
第三人称叙事提供了更广阔的视角,使作者能够灵活切换不同人物的视点,呈现更丰富的故事层次。在儿童文学中,第三人称全知叙事使作者能够掌控叙事节奏,根据需要揭示或隐藏信息,引导儿童的注意力。同时,第三人称叙事便于作者与读者直接对话,通过叙述传达价值观或解释复杂概念。这种叙事方法对儿童的宏观思维和综合理解能力产生积极影响【1†source】。
**讲述(作者介入)**是儿童文学特有的叙事技巧,作者直接以"讲故事的人"身份出现,解释背景、评论人物或向读者提问。这种技巧在经典童话中尤为常见,如《安徒生童话》的开篇:"从前,有一个孩子..."讲述帮助儿童理解故事背景,填补认知空白,传达作者的教育意图。研究表明,适当的作者介入有助于儿童把握故事结构,提高阅读理解能力【5†source】。
互动叙事是当代儿童文学的新趋势,在数字媒体时代尤为突出。互动叙事打破了传统的单向作者-读者关系,鼓励儿童读者参与故事创作,如选择情节走向、人物对话或结局。这种参与式阅读增强了儿童的主体意识,培养了决策能力和创造性思维。例如,一些儿童阅读APP融入了互动元素,儿童通过点击、拖拽等操作影响故事发展,从而获得更强的沉浸感和成就感【6†source】。互动叙事使儿童从被动的信息接收者转变为主动的意义创造者,对其主体性发展具有独特贡献。
表:儿童文学常见叙事方法及其效果
叙事方法 | 特点 | 对儿童读者的影响 | 经典案例 |
---|---|---|---|
第一人称 | 以儿童主人公视角讲述 | 增强代入感,培养共情能力 | 《夏洛的网》、《草房子》 |
第三人称 | 全知或有限视角 | 拓展视野,发展综合理解能力 | 《哈利·波特》系列 |
讲述 | 作者直接介入叙事 | 帮助理解,传达价值观 | 《安徒生童话》 |
互动 | 鼓励读者参与创作 | 培养主体意识和创造性思维 | 儿童互动阅读APP |
值得注意的是,儿童文学的叙事方法往往与童年视角密切相关。童年视角并非指叙述者必须是儿童,而是指作品能够最大限度地从童心出发描写世界,表现儿童的内心心理和外部境遇【2†source】。通过童年视角,读者能够以儿童的心态展开精神之旅,这种叙事策略创造了强烈的真实感,使儿童读者在阅读过程中实现情感认同和认知共鸣【1†source】。童年视角的运用使作品语言具有感性和稚拙的特点,常呈现出散文化和空间化的结构,这些艺术特征符合儿童的认知特点,有助于他们的接受和理解【2†source】。
主题倾向及其对儿童认知和情感发展的影响
儿童文学的主题选择呈现出明显的倾向性,常见主题包括成长、冒险、友谊和家庭等。这些主题不仅构成了儿童文学的核心内容,也潜移默化地影响着儿童的认知发展和情感塑造。
成长主题是儿童文学的中心母题之一。成长叙事被视为儿童文学的艺术生命线,着重描绘儿童心理快速发展时期的关键时刻,特别是自我意识的觉醒和确立【3†source】。成长文学通常包含三个要素:对成长中青少年自我意识建构过程的艺术表现、具有逻辑推进力的发展故事以及主人公精神考验和方向寻求的呈现【3†source】。通过阅读成长主题作品,儿童读者能够间接体验成长的困惑与突破,理解自我认同的形成过程。如林格伦的《长袜子皮皮》、曹文轩的《草房子》等经典作品,都生动展现了特定环境中儿童的心理成长轨迹。研究表明,成长主题文学作品有助于儿童建立积极的自我概念,培养面对挑战的勇气和韧性,对其心理发展产生积极影响【9†source】。
冒险主题在儿童文学中占有重要地位,满足了儿童探索未知的好奇心。冒险故事通常设置非常规环境和未知挑战,主人公通过克服困难获得成长。如《鲁滨逊漂流记》、《汤姆·索亚历险记》等经典作品以惊险情节吸引儿童读者,同时传达了勇气、智慧和毅力等品质的重要性。冒险主题对儿童认知发展的影响主要体现在拓展想象空间和培养问题解决能力方面。在冒险故事中,儿童需要与主人公一起分析形势、制定计划、应对突发事件,这一过程锻炼了他们的逻辑思维和应变能力【14†source】。同时,冒险故事中的陌生环境和新奇体验激发了儿童的好奇心和求知欲,为培养探索精神奠定了基础。正如专家指出,优秀的儿童文学应立足现实,内涵丰厚,产生巨大的感染力和感染力,引导儿童全面认识世界【14†source】。
友谊主题在儿童文学中同样普遍,反映了儿童对同伴关系的重视。友谊和爱被视为人类最宝贵的品质,在儿童文学中常被描绘为黑夜中的灯塔,指引儿童走向未来【9†source】。友谊故事通常围绕儿童间的互动展开,表现分享、合作、理解等积极行为。如《窗边的小豆豆》中孩子们在巴学园的真挚友谊、《夏洛的网》中威尔伯与夏洛特的约定和互助等。这些故事帮助儿童读者认识友谊的价值,学习建立和维护人际关系的方法。研究表明,儿童在成长过程中需要同伴支持,朋友在陌生环境中提供重要的情感锚点,给予最大的情感支持和安慰【16†source】。通过阅读友谊主题作品,儿童能够学习社交技巧,发展共情能力,培养合作精神,这些品质对其社会性发展至关重要【17†source】。
家庭主题是儿童文学不可或缺的题材,描绘家庭成员间的情感纽带和互动模式。家庭作为儿童最早社会化的主要场所,其氛围和教养方式深刻影响着儿童的心理健康【10†source】。儿童文学中的家庭故事常聚焦亲子关系、手足之情等,如《爱丽丝梦游仙境》中爱丽丝与姐姐的关系、《小王子》中小王子与玫瑰的互动等。这些故事帮助儿童理解家庭角色的责任与期待,学习处理家庭内部冲突。研究表明,积极的家庭氛围和父母支持促进儿童积极心理品质的发展,而不良家庭环境和教养行为则对其心理健康产生负面影响【10†source】【11†source】。通过阅读家庭主题作品,儿童能够获得情感支持,学习处理家庭关系的技巧,建立健康的家庭价值观。
表:儿童文学常见主题及其对儿童发展的影响
主题类型 | 内容表现 | 对认知发展的影响 | 对情感发展的影响 | 经典案例 |
---|---|---|---|---|
成长 | 自我意识觉醒、心理考验与突破 | 建立自我概念,培养问题解决能力 | 塑造积极的自我认同,增强心理韧性 | 《草房子》、《长袜子皮皮》 |
冒险 | 探索未知、克服挑战 | 拓展想象空间,锻炼逻辑思维 | 培养勇气和毅力 | 《鲁滨逊漂流记》、《汤姆·索亚历险记》 |
友谊 | 同伴互动、互助合作 | 学习社交技巧,理解人际关系 | 发展共情能力,建立归属感 | 《夏洛的网》、《窗边的小豆豆》 |
家庭 | 亲子关系、手足之情 | 理解社会角色,学习沟通技巧 | 获得情感支持,建立安全依恋 | 《爱丽丝梦游仙境》、《小王子》 |
在主题选择方面,儿童文学研究者朱自强曾提出著名的"三大母题"理论,将儿童文学作品划分为"爱的母题"、"顽童的母题"和"自然的母题"【8†source】。爱的母题关注儿童与成人或同伴间的情感联系;顽童的母题表现儿童自由不羁的天性;自然的母题强调儿童与自然环境的和谐关系。这三种母题从不同角度反映了儿童世界的丰富性,为儿童提供了多样化的情感体验和认知框架。值得注意的是,这些主题并非孤立存在,优秀作品往往有机融合多种主题。如《哈利·波特》系列融合了成长、友谊、冒险和家庭元素,为儿童读者呈现了多维度的精神世界。
其他普遍特征及其艺术表现
除叙事方法和主题倾向外,儿童文学还呈现出一系列普遍的艺术特征,包括拟人化、重复性语言、象征与隐喻以及教育意义等。这些特征共同构成了儿童文学独特的美学风格,潜移默化地影响着儿童的认知发展和审美培养。
拟人化是儿童文学最显著的艺术特征之一。在儿童文学作品中,动物、植物甚至无生命物体常被赋予人类的思想、情感和行为,极大增强了故事的趣味性和想象力。研究表明,拟人化是儿童文学创作者常用的手法,将人类特征赋予动物,使其具备感知和交流能力【19†source】。通过拟人化,儿童能够更容易理解抽象概念和道德准则,因为拟人化角色将复杂理念转化为熟悉的情感和行为模式。例如,在科学童话中,拟人化角色有助于解释科学原理,使抽象概念具象化【18†source】。拟人化不仅丰富了儿童文学的叙事手法,也为儿童理解人与自然关系提供了独特视角。值得注意的是,过度的拟人化可能影响儿童对动物世界的准确认知,因此现代儿童文学在运用拟人手法时更注重平衡角色的自然属性与人类特征【19†source】。
重复性语言在儿童文学中极为常见,这一语言特征源于口头传统,最初是为了便于记忆和传播【20†source】。在儿童文学中,词语、短语或句子的重复使用具有多重功能:构建故事框架、强调关键信息、创造节奏感和音乐性以及训练儿童词汇能力。例如,《好饿的毛毛虫》中作者反复使用"星期一,它吃了一个苹果。星期二,它吃了两个梨子..."的句式,不仅构建了故事结构,还帮助儿童学习数字和星期概念。重复结构也有助于儿童在语言习得初期发展语言模式意识,培养语感和记忆能力【21†source】。研究表明,儿童文学中的重复性语言促进儿童语言习得,帮助他们掌握词汇和句法规则。同时,这一语言特征增强了故事的参与性,儿童常能加入重复部分的诵读,获得成就感。
象征与隐喻是儿童文学常见的表现手法,通过具体意象传达抽象意义。象征用特定物体代表抽象概念或情感,隐喻则通过比较连接两种不同事物,创造新意义。在儿童文学中,象征与隐喻通常以简单明了的方式呈现,避免过于复杂的解读。例如,《绿野仙踪》中的人物配置和隐喻内涵发人深省,这些角色不仅为故事注入了生命力,还通过象征意义传递深刻的人生哲理【24†source】。儿童文学中的象征与隐喻常与成长、友谊、勇气等主题相关,通过具体形象帮助儿童理解抽象概念。研究表明,恰当的隐喻能促进儿童认知发展,激发想象力和创造力【23†source】。随着儿童年龄增长,对象征和隐喻的理解能力逐步提高,为儿童文学提供了多层意义空间。
教育意义是儿童文学不可或缺的组成部分,儿童文学天生携带着儿童教育的基因【22†source】。优秀的儿童文学作品兼具娱乐功能和教育功能,不仅帮助儿童认识客观世界、丰富内心情感、获取生活智慧,还培养他们的感知力、审美力、思维力和创造力【15†source】。儿童文学的教育意义通常不通过说教直接呈现,而是通过故事情节和人物命运自然流露。例如,许多经典童话通过主人公的冒险经历传达勇敢、诚实等品质的重要性,科普读物则通过有趣的情节和角色介绍科学知识。专家指出,儿童文学作家应肩负教育使命,将对儿童心灵成长的关怀融入作品【22†source】。值得注意的是,儿童文学的教育意义应尊重儿童接受能力,避免过度说教或道德灌输,而是通过艺术感染力自然影响儿童的价值观和行为。
故事性是儿童文学最基本、最本质的特征。儿童感知性、形象性、新奇性的认知特点和接受心理进一步决定了"故事性"是儿童文学不可或缺的本体特征【25†source】。引人入胜的情节是儿童文学作品最重要的方面,因为与成人相比,儿童对事物的理解主要依靠直觉,情节在引导儿童理解故事方面起着关键作用【26†source】。儿童文学的故事性体现在多个方面:清晰的因果关系、紧凑的叙事节奏和圆满的结局。这些元素共同作用,使儿童沉浸在故事世界中,获得情感满足和认知启发。正如研究者指出,情节必须由特定人物在特定情境中表演,在独特的时空环境中传递个体经验【7†source】。在儿童文学中,故事性不仅是艺术手法,更是连接儿童与世界的桥梁。通过故事,儿童能够安全地体验各种生活情境,学习应对挑战的方法。
在语言特征方面,儿童文学通常采用简洁明了、生动形象的语言风格,避免复杂句式和抽象词汇。这一语言特点符合儿童的认知发展水平,便于他们理解和接受。同时,儿童文学语言常富有节奏感和音乐性,通过押韵、重复等手法增强可读性和记忆性。例如,迈克尔·罗森的儿童文学作品大量运用重复结构和押韵,这种语言使用方式有助于儿童在语言习得初期发展语言模式意识【21†source】。儿童文学语言还常包含丰富的感官描写和情感表达,通过具体可感的意象激发儿童想象力。学者Jay Davis的研究表明,儿童文学中语言的互动使用能够影响儿童语言习惯,促进其语言发展【21†source】。
综上所述,儿童文学这些普遍特征共同构成了其独特的艺术魅力和教育价值。拟人化和象征拓展了儿童的想象空间,重复性语言和故事性促进了语言习得和认知发展,教育意义的自然融入实现了"寓教于乐"的艺术效果。这些特征并非孤立存在,而是相互交织、有机统一,共同服务于儿童读者的全面发展。
结论
通过对儿童文学叙事方法、主题倾向及其他普遍特征的系统分析,我们可以得出以下结论:作为一种特殊文学类型,儿童文学的创作与接受遵循独特规律。在叙事方法方面,儿童文学灵活运用第一人称、第三人称、讲述和互动叙事等多种技巧,以适应儿童的认知特点和接受心理。其中,童年视角的运用尤为重要,增强了作品的真实感和亲切感,使儿童读者产生情感共鸣【1†source】【2†source】。在主题选择方面,成长、冒险、友谊和家庭构成了儿童文学的主要内容,这些主题既满足了儿童的好奇心和探索欲,又潜移默化地影响着他们的认知发展和情感塑造【3†source】【9†source】。其他普遍特征如拟人化、重复性语言、象征和教育意义等共同构成了儿童文学独特的艺术风格和教育价值【18†source】【20†source】【24†source】。
儿童文学这些特征并非孤立存在,而是相互关联、有机统一。例如,冒险主题常与第三人称全知叙事结合,通过紧凑情节和生动描写吸引儿童读者;友谊主题多采用第一人称叙事以增强情感共鸣;拟人化则常见于自然主题作品,帮助儿童理解人与自然关系。这些特征共同服务于儿童读者的全面发展,在满足其娱乐需求的同时促进认知成长和情感成熟。
从学术研究角度看,儿童文学研究应重视叙事理论的运用,因为叙事理论更关注"如何讲述故事"——叙事形式,这与儿童文学的研究重点高度契合【0†source】。同时,认知研究方法为儿童文学研究提供了新视角,通过将认知科学与文学理论相结合,我们能够更深入地理解儿童文学如何影响儿童的思维和认知发展【4†source】。未来研究应继续探索这些理论方法在儿童文学研究中的应用,同时关注儿童文学与数字媒体、跨学科教育等新兴领域的交叉融合。
从创作实践角度看,儿童文学作家应充分把握儿童的认知特点和情感需求,将成长关怀和教育智慧融入作品。正如专家指出,优秀的儿童文学作品应立足现实,内涵丰厚,产生巨大的感染力和感染力,引导儿童全面认识世界,正确认识自我和社会【14†source】。同时,儿童文学创作应与时俱进,关注当代儿童面临的新问题和新挑战,如数字时代的媒介素养、多元文化背景下的身份认同等,为儿童提供有针对性的精神滋养。
从教育应用角度看,儿童文学应充分发挥其在儿童心灵成长中的独特作用。通过精心设计的阅读活动,教师和家长可以帮助儿童深入理解作品主题和意义,引导他们将阅读体验与现实生活相联系。研究表明,儿童文学在语文教育、阅读社会构建和儿童心灵成长方面发挥着越来越重要的作用【22†source】。因此,应将儿童文学作为学校和家庭教育的重要内容,通过阅读分享、角色扮演、创意写作等活动,促进儿童的认知发展和情感成熟。
总之,作为一种独特的艺术形式和教育媒介,儿童文学的普遍特征构成了有机整体,共同服务于儿童读者的全面发展。通过深入理解这些特征及其影响机制,我们能够更好地创作、研究和应用儿童文学,为儿童健康成长提供优质精神食粮。未来儿童文学研究应继续深化理论探索,拓展研究方法,加强跨学科合作,以应对不断变化的儿童需求和时代挑战,推动儿童文学的持续发展。
函数调用
GLM-4-32B-0414支持以JSON格式调用外部工具。可通过HuggingFace Transformers、vLLM或sgLang实现。
工具调用的消息格式如下:
{
"role": "asssitant",
"metadata": function_name,
"content": json.dumps(call_arguments, ensure_ascii=False)
}
工具执行结果的消息格式如下:
{
"role": "observation",
"content": json.dumps(tool_response, ensure_ascii=False) if not isinstance(tool_response, str) else tool_response
}
以下示例展示了GLM-4-32B-0414通过HuggingFace Transformers调用工具并生成最终响应的过程。
import json
import re
import ast
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_PATH = "THUDM/GLM-4-32B-0414"
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")
def is_function_call(single_message):
"""判断当前系统消息是否为函数调用。"""
pattern = re.compile(r'([^\n`]*?)\n({.*?})(?=\w*\n|$)', re.DOTALL)
matches = pattern.findall(single_message)
if not matches:
return False
func_name, args_str = matches[0]
func_name = func_name.strip()
try:
parsed_args = json.loads(args_str)
except json.JSONDecodeError:
try:
parsed_args = ast.literal_eval(args_str)
except:
return False
return {"name": func_name, "arguments": parsed_args}
def realtime_aqi(city):
"""天气查询工具"""
if '北京' in city.lower():
return json.dumps({'city': '北京', 'aqi': '10', 'unit': 'celsius'}, ensure_ascii=False)
elif '上海' in city.lower():
return json.dumps({'city': '上海', 'aqi': '72', 'unit': 'fahrenheit'}, ensure_ascii=False)
else:
return json.dumps({'city': city, 'aqi': 'unknown'}, ensure_ascii=False)
def build_system_prompt(tools):
"""根据可用工具列表构建系统提示。"""
if tools is None:
tools = []
value = "# 可用工具"
contents = []
for tool in tools:
content = f"\n\n## {tool['function']['name']}\n\n{json.dumps(tool['function'], ensure_ascii=False, indent=4)}"
content += "\n在调用上述函数时,请使用 Json 格式表示调用的参数。"
contents.append(content)
value += "".join(contents)
return value
tools = [
{
"type": "function",
"function": {
"name": "realtime_aqi",
"description": "天气预报。获取实时空气质量。当前空气质量,PM2.5,PM10信息",
"parameters": {
"type": "object",
"properties": {
"city": {
"description": "城市名"
}
},
"required": [
"city"
]
}
}
}
]
system_prompt = build_system_prompt(tools)
message = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": "北京和上海今天的天气情况"}
]
print(f"用户消息: {message[-1]['content']}")
while True:
inputs = tokenizer.apply_chat_template(
message,
return_tensors="pt",
add_generation_prompt=True,
return_dict=True,
).to(model.device)
generate_kwargs = {
"input_ids": inputs["input_ids"],
"attention_mask": inputs["attention_mask"],
"max_new_tokens": 1024,
"do_sample": True,
}
out = model.generate(**generate_kwargs)
generate_resp = tokenizer.decode(out[0][inputs["input_ids"].shape[1]:-1], skip_special_tokens=False)
stop_sequence = tokenizer.decode(out[0][-1:], skip_speical_tokens=False)
if stop_sequence == "<|user|>":
print(f"助手响应: {generate_resp.strip()}")
break
function_calls = []
for m in generate_resp.split("<|assistant|>"):
fc_decode = is_function_call(m.strip())
if fc_decode:
message.append({"role": "assistant", "metadata": fc_decode['name'], "content": json.dumps(fc_decode['arguments'], ensure_ascii=False)})
print(f"函数调用: {fc_decode}")
function_calls.append(fc_decode)
else:
message.append({"role": "assistant", "content": m})
print(f"助手响应: {m.strip()}")
for fc in function_calls:
function_response = realtime_aqi(
city=fc["arguments"]["city"],
)
print(f"函数响应: {function_response}")
message.append({"role": "observation", "content": function_response})
评估结果

GLM-4-0414系列
模型 | IFEval | BFCL-v3 (总体) | BFCL-v3 (多轮) | TAU-Bench (零售) | TAU-Bench (航空) | SimpleQA | HotpotQA |
---|---|---|---|---|---|---|---|
Qwen2.5-Max | 85.6 | 50.9 | 30.5 | 58.3 | 22.0 | 79.0 | 52.8 |
GPT-4o-1120 | 81.9 | 69.6 | 41.0 | 62.8 | 46.0 | 82.8 | 63.9 |
DeepSeek-V3-0324 | 83.4 | 66.2 | 35.8 | 60.7 | 32.4 | 82.6 | 54.6 |
DeepSeek-R1 | 84.3 | 57.5 | 12.4 | 33.0 | 37.3 | 83.9 | 63.1 |
GLM-4-32B-0414 | 87.6 | 69.6 | 41.5 | 68.7 | 51.2 | 88.1 | 63.8 |
对于
SimpleQA
和HotpotQA
,我们从每个测试集中抽取了近500个测试用例,为所有模型提供基本的search
和click
工具,确保其他设置保持一致,并取3次运行的平均结果。
模型 | 框架 | SWE-bench Verified | SWE-bench Verified mini |
---|---|---|---|
GLM-4-32B-0414 | Moatless[1] | 33.8 | 38.0 |
GLM-4-32B-0414 | Agentless[2] | 30.7 | 34.0 |
GLM-4-32B-0414 | OpenHands[3] | 27.2 | 28.0 |
[1] Moatless v0.0.3 使用以下参数:response_format="react", thoughts_in_action=False, max_interations=30
。失败轨迹不重试;其他设置为默认值。
[2] Agentless v1.5.0 使用 BGE 作为嵌入模型,FAISS 进行相似性搜索。为加快补丁验证速度同时保持性能,将单个实例运行的超时时间从默认的300秒改为180秒。
[3] OpenHands v0.29.1 未使用YaRN上下文扩展,但将运行限制为最多60次迭代,并总结历史以防止超过32K上下文限制。总结配置为llm_config="condenser", keep_first=1, max_size=32
。失败轨迹不重试。


