I

Internlm2 1 8b Reward

由 internlm 开发
基于InternLM2-Chat-1.8B-SFT训练的奖励模型,使用超过240万条人工标注和AI合成的偏好样本进行训练,在保持实用性与安全性平衡的同时展现出卓越性能。
下载量 8,216
发布时间 : 6/27/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个奖励模型,主要用于评估和比较不同对话或文本的优劣,支持中英文双语,适用于对话、写作、诗歌、摘要、编程、数学等多个领域。

模型特点

多尺寸可选
开源了1.8B、7B和20B三种规格的奖励模型,各规格模型在不同指标上均表现优异,旨在推动奖励模型缩放定律的研究。
全面的偏好覆盖
训练使用了240万条涵盖对话、写作、诗歌、摘要、编程、数学等领域的偏好数据,同时兼顾了实用性与安全性的平衡。
双语支持
基于高质量中英文偏好数据训练,在两种语言上均表现稳健。

模型能力

对话评分
文本优劣比较
多候选排序
中英文支持

使用案例

对话系统
最优N选1采样
生成多个候选回答后,使用奖励模型选出最佳回答。
提升对话系统的响应质量。
文本评估
文本评分
对单条或多条文本进行评分,评估其质量。
量化文本质量,便于后续处理。