G

Guardreasoner 8B

由 yueliu1999 开发
GuardReasoner 8B是基于meta-llama/Llama-3.1-8B微调的模型,专注于推理式LLM安全防护
下载量 480
发布时间 : 1/30/2025
模型介绍
内容详情
替代品

模型简介

该模型通过R-SFT和HS-DPO微调技术,专门用于分析人类与AI交互的安全性,执行有害性检测和拒绝检测等任务

模型特点

推理式安全防护
采用逐步推理方式分析AI交互,确保判断与推理过程的一致性
多任务联合检测
同时执行提示有害性检测、拒绝检测和响应有害性检测三项任务
高效微调技术
采用R-SFT和HS-DPO等先进微调方法优化模型性能

模型能力

文本分类
有害内容检测
AI响应评估
多任务推理

使用案例

AI安全监控
社交媒体内容审核
检测用户与AI交互中的有害内容和不当响应
可准确识别潜在有害交互并提供安全评估
AI助手安全防护
监控AI助手的响应是否符合安全规范
有效检测AI是否遵从或拒绝有害请求