G

Guardreasoner 1B

由 yueliu1999 开发
GuardReasoner 1B是基于meta-llama/Llama-3.2-1B通过R-SFT和HS-DPO微调的版本,专注于分析人类与AI交互的分类任务。
下载量 154
发布时间 : 1/31/2025
模型介绍
内容详情
替代品

模型简介

该模型用于分析人类与AI交互的分类任务,判断用户请求和AI响应的危害性,以及AI是否拒绝或遵从请求。

模型特点

基于推理的防护机制
通过逐步推理判断用户请求和AI响应的危害性,确保推理与答案之间的一致性。
多任务分类
同时完成三项任务:判断用户请求的危害性、AI是否拒绝或遵从请求、以及AI响应的危害性。
高效微调
通过R-SFT和HS-DPO微调技术优化模型性能。

模型能力

文本分类
危害性检测
拒绝检测
多任务推理

使用案例

AI安全
检测有害用户请求
分析用户请求是否包含有害内容,如虚假信息或不当请求。
准确判断请求的危害性
评估AI响应安全性
判断AI助手的响应是否遵从或拒绝有害请求,以及响应本身是否有害。
确保AI响应的安全性