O

Openhands Critic 32b Exp 20250417

由 all-hands 开发
基于Qwen2.5-Coder-32B-Instruct微调的评审模型,用于评估代码解决方案质量,助力SWE-Bench基准测试取得SOTA成绩
下载量 194
发布时间 : 4/16/2025
模型介绍
内容详情
替代品

模型简介

专为软件工程任务设计的评审模型,通过时序差分学习目标评估代码补丁质量,支持多轨迹择优选择

模型特点

推理时扩展优化
通过生成多个解决方案并择优选取,将SWE-Bench性能从60.6%提升至66.4%
时序差分学习
采用TD学习目标将单元测试信号反向传播至整个轨迹,实现精准奖励预测
真实场景泛化
相比提示工程方案,训练后的评审模型可泛化至SWE-Bench之外的软件工程场景

模型能力

代码质量评估
多方案择优
软件问题修复
单元测试通过率预测

使用案例

软件开发辅助
SWE-Bench问题解决
评估GitHub真实问题的代码补丁质量
在SWE-Bench Verified基准达到66.4%通过率
编程智能体优化
为OpenHands智能体提供中间奖励信号
支持实时错误恢复和单步前瞻采样