C

Compassjudger 2 7B Instruct

由 opencompass 开发
CompassJudger-2 是一系列全新的通用评判模型,旨在克服现有大语言模型评判方案专业性狭窄和鲁棒性有限的问题。
下载量 151
发布时间 : 7/9/2025

模型简介

CompassJudger-2 采用强大的新训练范式,解决了当前评判模型在综合评估方面的难题,适用于多领域的评判任务。

模型特点

先进的数据策略
采用任务驱动、多领域的数据整理和合成策略,增强模型的鲁棒性和领域适应性。
可验证的奖励引导训练
使用可验证的奖励监督评判任务,通过思维链(CoT)和拒绝采样引导模型的内在推理。
卓越的性能
在多个评判和奖励基准测试中取得了最先进的成果。7B 模型与更大规模的模型相比,也展现出了有竞争力的准确性。
JudgerBenchV2
引入了一个全新的综合基准测试,涵盖 10 种场景的 10000 个问题,使用评判器混合(MoJ)共识来获得更可靠的真实标签。

模型能力

AI响应质量评估
多维度评判(帮助性、相关性、准确性、深度、创造性和细节水平)
基准测试评估

使用案例

AI模型评估
AI助手响应比较
评估两个AI助手对同一问题的响应质量,选择更优的响应。
提供结构化选择结果,如{'Choice': '[Model A or Model B]'}
基准测试
JudgerBenchV2评估
在涵盖10种场景的10000个问题上进行综合评估。
在多个基准测试中取得最先进成果
AIbase
智启未来,您的人工智能解决方案智库
简体中文