G

Guardreasoner 3B

由 yueliu1999 开发
基于Llama-3.2-3B通过R-SFT和HS-DPO方法微调的安全防护模型,用于分析人机交互中的有害内容
下载量 172
发布时间 : 1/31/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个用于分析人机交互的分类器,能够判断用户请求和AI响应的危害性,以及AI的拒绝或遵从行为

模型特点

安全防护
专门设计用于检测人机交互中的有害内容和行为
多任务分析
同时执行请求危害性检测、拒绝行为检测和响应危害性检测三项任务
推理能力
采用逐步推理的方式确保判断过程的逻辑性和一致性

模型能力

文本分类
有害内容检测
行为分析
多任务推理

使用案例

内容安全
社交媒体内容审核
检测社交媒体平台上的有害用户请求和AI响应
有效识别潜在有害内容
AI助手安全防护
监控AI助手与用户的交互,防止有害内容传播
提高AI助手的安全性