M

MD Judge V0.1

由 OpenSafetyLab 开发
基于Mistral-7B微调的大型语言模型安全卫士,作为问答对安全性评估的分类器
下载量 480
发布时间 : 2/7/2024
模型介绍
内容详情
替代品

模型简介

MD-Judge是专为SALAD-Bench项目开发的安全评估模型,用于评估大语言模型生成内容的安全性,可作为通用安全评估工具。

模型特点

高性能安全评估
在多个安全测试集上表现优于LlamaGuard、GPT-3.5和GPT-4
多类别安全检测
支持6大类不安全内容检测,包括毒性内容、错误信息、社会经济危害等
专为SALAD-Bench优化
针对问答对安全性评估场景特别优化

模型能力

文本安全评估
不安全内容分类
问答对安全性判断

使用案例

AI安全评估
大语言模型安全基准测试
用于评估不同大语言模型生成内容的安全性
在SALAD-Bench测试集上达到0.818-0.873的F1分数
内容审核
检测用户与AI交互中的不安全内容
在毒性对话数据集上达到0.644的F1分数