ThinkEdit-deepseek-llama3-8b开源模型 - 优化思维链长度，提升推理准确性

首页

Thinkedit Deepseek Llama3 8b

由 cesun 开发

ThinkEdit是一种轻量级权重编辑方法，通过识别并编辑少量注意力头来缓解推理模型生成过于简短思维链的问题，提升推理准确性。

大型语言模型

Transformers

开源协议:MIT #权重编辑优化 #简短推理修正 #数学推理增强

下载量 55

发布时间 : 3/11/2025

模型简介

该模型针对大语言模型在推理任务中生成的思维链(CoT)过于简短的问题，通过可解释的权重编辑方法，仅修改约0.1%的参数，显著提升在数学推理等任务上的表现。

模型特点

轻量级权重编辑

仅识别并编辑约2%的'简短推理'注意力头和0.1%的总参数，实现高效优化

可解释性编辑

通过分析注意力头的激活模式，定位导致简短推理的特定方向并移除

性能提升

在多个数学推理基准测试中显著提升准确率，特别是在简短推理案例上表现突出

推理长度优化

有效增加模型生成的推理步骤长度，提供更详细的解题过程

模型能力

数学问题求解

复杂推理任务处理

生成详细思维链

教育领域应用

使用案例

教育

数学题分步解答

为学生提供详细的数学问题解决步骤

在GSM8K数学题集上准确率提升6.71%

考试题目解析

生成标准化考试题目的详细解析过程

在MMLU小学数学测试中准确率提升0.07%

研究

模型可解释性研究

研究注意力头与推理行为的关系

识别出2%的关键注意力头

🚀 ThinkEdit-deepseek-llama3-8b项目

本项目主要围绕ThinkEdit模型展开，该模型是一种轻量级权重编辑方法，可解决推理增强模型在生成思维链推理时过短、抽象的问题，有效提升模型性能，尤其是在短推理轨迹的情况下。

🚀 快速开始

本项目暂未提供快速开始的相关内容。

✨ 主要特性

轻量级权重编辑：ThinkEdit方法能够识别约2%的“短推理”注意力头，并仅编辑约0.1%的总参数。
去除短推理方向：从输出中去除“短推理”方向，从而提升模型性能。
性能提升显著：在多个数据集上，ThinkEdit模型相较于原始模型在准确性和推理长度上都有明显提升。

📚 详细文档

项目信息

仓库地址：ThinkEdit
作者：Chung-En Sun, Ge Yan, Tsui-Wei Weng
论文：ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models

引言

推理增强模型有时会生成过短、抽象的思维链（CoT）推理，从而影响其准确性。ThinkEdit是一种轻量级的权重编辑方法，旨在解决这一问题。

完整性能结果

1. 整体准确率

模型	GSM8K	MMLU Elementary Math	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	90.80 ± 0.36	95.08 ± 0.65	96.32 ± 0.35	90.25 ± 0.72	91.48 ± 0.55
ThinkEdit-deepseek-qwen-14b	93.50 ± 0.31	96.53 ± 0.54	96.50 ± 0.46	91.15 ± 0.59	91.78 ± 0.58
deepseek-llama3-8b	82.26 ± 0.91	96.01 ± 0.62	93.46 ± 0.84	85.49 ± 0.83	87.26 ± 1.16
ThinkEdit-deepseek-llama3-8b	88.97 ± 0.78	96.08 ± 0.86	94.12 ± 0.47	85.91 ± 0.48	87.60 ± 0.81
deepseek-qwen-1.5b	79.15 ± 1.08	68.52 ± 1.56	93.00 ± 0.33	75.48 ± 0.90	82.22 ± 1.29
ThinkEdit-deepseek-qwen-1.5b	83.34 ± 0.79	86.24 ± 1.12	93.89 ± 0.76	74.94 ± 0.85	82.74 ± 0.77

2. 短推理案例的准确率（前5% / 10% / 20%）

模型	GSM8K	MMLU Elementary Math	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	96.31 / 95.65 / 92.93	93.89 / 96.22 / 95.60	99.52 / 99.30 / 97.70	89.39 / 94.32 / 96.25	86.40 / 91.40 / 93.50
ThinkEdit-deepseek-qwen-14b	96.62 / 96.03 / 96.12	96.11 / 96.22 / 96.27	100.00 / 99.77 / 98.85	95.76 / 97.65 / 98.07	89.60 / 92.60 / 94.70
deepseek-llama3-8b	88.92 / 87.18 / 85.82	97.22 / 96.49 / 96.80	97.14 / 94.88 / 94.83	78.64 / 88.79 / 93.41	82.00 / 81.40 / 88.30
ThinkEdit-deepseek-llama3-8b	97.08 / 95.27 / 93.95	97.78 / 98.65 / 97.87	100.00 / 99.30 / 98.62	95.61 / 96.89 / 97.12	92.80 / 93.60 / 94.40
deepseek-qwen-1.5b	88.46 / 87.48 / 85.02	62.78 / 62.16 / 60.53	97.62 / 95.12 / 93.91	91.52 / 95.00 / 95.72	82.40 / 89.80 / 93.40
ThinkEdit-deepseek-qwen-1.5b	92.46 / 92.37 / 92.05	77.22 / 80.54 / 79.73	96.19 / 95.81 / 97.36	93.79 / 95.83 / 95.80	92.80 / 94.40 / 94.90

3. 推理长度（前5% / 10% / 20%最短响应）

模型	GSM8K	MMLU Elementary Math	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	76.6 / 86.5 / 99.1	65.8 / 72.2 / 80.6	93.7 / 114.3 / 188.6	628.8 / 858.4 / 1125.9	198.7 / 434.3 / 697.0
ThinkEdit-deepseek-qwen-14b	95.4 / 106.3 / 120.2	79.1 / 87.1 / 98.7	125.1 / 150.2 / 243.4	698.5 / 906.6 / 1157.2	270.2 / 492.6 / 733.3
deepseek-llama3-8b	73.0 / 83.1 / 96.6	371.0 / 438.1 / 518.2	80.3 / 97.2 / 130.3	617.9 / 854.9 / 1126.5	159.5 / 357.5 / 644.5
ThinkEdit-deepseek-llama3-8b	93.2 / 106.9 / 127.4	396.5 / 464.2 / 543.2	137.4 / 173.3 / 277.1	791.2 / 954.8 / 1185.1	305.2 / 506.3 / 737.6
deepseek-qwen-1.5b	78.8 / 89.4 / 103.0	61.6 / 68.5 / 77.6	88.8 / 110.3 / 219.7	804.6 / 1017.9 / 1314.0	249.7 / 506.5 / 760.7
ThinkEdit-deepseek-qwen-1.5b	97.2 / 109.4 / 126.3	75.9 / 85.0 / 99.5	127.9 / 174.1 / 416.4	818.0 / 984.5 / 1214.3	435.0 / 612.9 / 800.6

使用方法

ThinkEdit模型的使用方法与原始的deepseek-distilled模型完全相同。

引用信息

@misc{sun2025thinkedit,
      title={ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models},
      author={Chung-En Sun and Ge Yan and Tsui-Wei Weng},
      year={2025},
      eprint={2503.22048},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.22048},
}