模型简介
专为软件工程任务设计的评审模型,通过时序差分学习目标评估代码补丁质量,支持多轨迹择优选择
模型特点
推理时扩展优化
通过生成多个解决方案并择优选取,将SWE-Bench性能从60.6%提升至66.4%
时序差分学习
采用TD学习目标将单元测试信号反向传播至整个轨迹,实现精准奖励预测
真实场景泛化
相比提示工程方案,训练后的评审模型可泛化至SWE-Bench之外的软件工程场景
模型能力
代码质量评估
多方案择优
软件问题修复
单元测试通过率预测
使用案例
软件开发辅助
SWE-Bench问题解决
评估GitHub真实问题的代码补丁质量
在SWE-Bench Verified基准达到66.4%通过率
编程智能体优化
为OpenHands智能体提供中间奖励信号
支持实时错误恢复和单步前瞻采样
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文