T

Thinkedit Deepseek Llama3 8b

由 cesun 开发
ThinkEdit是一种轻量级权重编辑方法,通过识别并编辑少量注意力头来缓解推理模型生成过于简短思维链的问题,提升推理准确性。
下载量 55
发布时间 : 3/11/2025
模型介绍
内容详情
替代品

模型简介

该模型针对大语言模型在推理任务中生成的思维链(CoT)过于简短的问题,通过可解释的权重编辑方法,仅修改约0.1%的参数,显著提升在数学推理等任务上的表现。

模型特点

轻量级权重编辑
仅识别并编辑约2%的'简短推理'注意力头和0.1%的总参数,实现高效优化
可解释性编辑
通过分析注意力头的激活模式,定位导致简短推理的特定方向并移除
性能提升
在多个数学推理基准测试中显著提升准确率,特别是在简短推理案例上表现突出
推理长度优化
有效增加模型生成的推理步骤长度,提供更详细的解题过程

模型能力

数学问题求解
复杂推理任务处理
生成详细思维链
教育领域应用

使用案例

教育
数学题分步解答
为学生提供详细的数学问题解决步骤
在GSM8K数学题集上准确率提升6.71%
考试题目解析
生成标准化考试题目的详细解析过程
在MMLU小学数学测试中准确率提升0.07%
研究
模型可解释性研究
研究注意力头与推理行为的关系
识别出2%的关键注意力头