R

RM R1 Qwen2.5 Instruct 32B

由 gaotang 开发
RM-R1是一个通过推理轨迹生成进行奖励建模的框架,相比传统方法在准确率和可解释性上有显著提升
下载量 29
发布时间 : 5/6/2025

模型简介

该模型通过两阶段训练(推理轨迹蒸馏和强化学习)实现可解释的奖励评分,适用于RLHF/RLAIF和自动化评估场景

模型特点

可解释性评分
通过生成评分标准或推理轨迹后再表达偏好,提供完全透明的评价过程
两阶段训练框架
先蒸馏8.7K条高质量推理轨迹,再通过RLVR处理64K条偏好对
性能突破
在公共基准上实现+13.8%绝对准确率提升
多尺寸选择
提供7B/14B/32B参数版本及DeepSeek蒸馏检查点

模型能力

生成评分标准
偏好判断
推理轨迹生成
开放域问答评估
对话质量评分

使用案例

强化学习
RLHF/RLAIF
作为即插即用的奖励函数用于策略优化
自动化评估
LLM评判员
对开放域问答、聊天和推理任务进行自动评分
研究工具
过程监督研究
用于研究思维链验证或评分标准生成机制
AIbase
智启未来,您的人工智能解决方案智库
简体中文