V

Visualprm 8B V1 1

由 OpenGVLab 开发
VisualPRM-8B-v1.1 是一个具有80亿参数的先进多模态过程奖励模型,通过Best-of-N评估策略提升多模态大语言模型的推理能力。
下载量 249
发布时间 : 4/13/2025

模型简介

该模型旨在提升现有多模态大语言模型(MLLMs)的推理能力,通过过程奖励机制优化模型输出。

模型特点

多模态过程奖励
通过过程奖励机制评估和优化多模态推理步骤
Best-of-N评估策略
采用BoN策略从多个候选响应中选择最优解
大规模训练数据
基于VisualPRM400K数据集训练,包含40万样本
广泛适用性
可提升不同规模和架构的多模态大语言模型性能

模型能力

多模态推理评估
过程奖励评分
最佳响应选择
几何问题解答
视觉-语言联合理解

使用案例

教育
几何问题解答评估
评估和优化模型对几何问题的分步解答
在InternVL2.5-78B上实现5.9分的性能提升
研究
多模态模型优化
作为奖励模型优化其他多模态大语言模型
提升三种类型MLLMs和四种不同规模的推理性能
AIbase
智启未来,您的人工智能解决方案智库
简体中文