M

MD Judge V0 2 Internlm2 7b

由 OpenSafetyLab 开发
基于internlm2-7b-chat微调的安全防护工具,提供人类可读的判定解释和细粒度危害评分
下载量 1,823
发布时间 : 7/21/2024
模型介绍
内容详情
替代品

模型简介

MD-Judge-v0.2-internlm2_7b是一款大语言模型安全防护工具,为安全评估提供可靠的参考标准,具备思维链推理和细粒度危害区分能力

模型特点

思维链推理
逐步推理得出最终判定,提供详细的推理过程
细粒度危害评分
根据5级评分标准(从完全无害到极度有害)进行精确评估
人类可读解释
提供清晰的判定解释和违规类别(如判定为不安全)

模型能力

安全评估
危害评分
违规检测
文本分析

使用案例

AI安全
对话安全评估
评估AI对话中的潜在危害内容
提供安全/不安全判定及具体分数
内容审核
识别和标记有害或危险内容
识别违规内容并分类