I

Internlm Xcomposer2d5 7b Reward

由 internlm 开发
InternLM-XComposer2.5-Reward 是基于 InternLM-XComposer2.5 训练的多模态奖励模型,能够给出符合人类偏好的奖励分数。
下载量 767
发布时间 : 1/21/2025
模型介绍
内容详情
替代品

模型简介

该模型通过文本、图像和视频领域的偏好样本进行训练,能够评估对话、图像分析等任务的输出质量。

模型特点

多模态评估
能够同时处理文本和图像输入,进行综合评估
人类偏好对齐
通过偏好样本训练,评分结果符合人类偏好
高性能
在多个基准测试中表现优异,如 VLRewardBench 和 RewardBench

模型能力

对话质量评估
图像分析评估
多模态内容评分
偏好排序

使用案例

内容评估
对话质量评分
评估AI助手生成的对话回复质量
可给出0-10分的评分
多模态内容排序
对多个包含图像和文本的回复进行质量排序
返回质量从高到低的排序结果
模型训练
强化学习奖励模型
作为强化学习中的奖励信号提供者
帮助训练更符合人类偏好的AI模型