T

Thinkprm 1.5B

由 launch 开发
ThinkPRM-1.5B是基于R1-Distill-Qwen-1.5B架构的生成式过程奖励模型,能够通过生成验证思维链对推理过程进行逐步验证。
下载量 68
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

该模型专为验证逐步推理过程的正确性设计,能够生成显式的验证思维链并为每一步骤标注正确性,具有极高的数据效率和强劲性能。

模型特点

数据效率高
相比传统判别式PRM所需监督数据量显著减少,仅需1千例合成生成的验证思维链数据集进行微调。
生成式验证
通过生成自然语言评述和正确性判断提供步骤级验证评分,具有可解释性。
多领域适用
已在数学推理、科学问答和代码生成领域完成评估,性能优于基线模型。

模型能力

生成验证思维链
步骤级正确性判断
解决方案评分
独立验证问题-解决方案对

使用案例

数学推理
数学解题步骤验证
验证数学解题步骤的正确性,如解方程、证明等。
在MATH-500、AIME '24等基准测试中表现优异。
代码生成
代码验证
验证生成的代码逻辑是否正确。
在LiveCodeBench基准测试中表现优异。
科学问答
科学问题解答验证
验证科学问题解答步骤的正确性。
在GPQA-Diamond基准测试中表现优异。