S

Skywork VL Reward 7B

由 Skywork 开发
Skywork-VL-Reward-7B是一个7B参数的多模态奖励模型,基于Qwen2.5-VL-7B-Instruct架构,增加了用于训练奖励模型的价值头结构。
下载量 30
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

这是一个高效的多模态理解与推理奖励模型,旨在为多模态强化学习提供支持。

模型特点

多模态理解
能够同时处理图像和文本信息,进行多模态理解与推理。
高效性能
在VL-RewardBench和RewardBench上取得了SOTA成绩。
开源贡献
为开源社区提供了一个强大的多模态奖励模型。

模型能力

多模态理解
图像文本分析
奖励模型训练

使用案例

多模态强化学习
多模态奖励模型训练
用于训练多模态强化学习模型,提供奖励信号。
在VL-RewardBench上获得73.1的SOTA成绩。
图像文本理解
图像文本分析
分析图像和文本的结合信息,提供理解和推理能力。
在RewardBench上获得90.1的高分。