P

Prompt Saturation Attack Detector

由 GuardrailsAI 开发
用于检测饱和型越狱攻击的小型BERT模型,不适用于独立防御其他类型的越狱攻击。
下载量 4,762
发布时间 : 11/7/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个基于BERT架构的小型预过滤器,专门设计用于检测部分饱和攻击,是防御机器学习系统滥用方案中的一个组成部分。

模型特点

专注饱和攻击检测
专门针对饱和型越狱攻击设计,具有针对性检测能力
轻量级模型
基于bert-tiny架构,计算资源需求低
安全防护组件
作为完整安全防护方案中的预过滤组件

模型能力

越狱攻击检测
文本分类
安全威胁识别

使用案例

AI安全防护
大语言模型安全防护
作为大语言模型系统的前置安全过滤器
可识别特定类型的越狱攻击尝试
AI系统安全审计
用于检测系统是否遭受饱和攻击
提供初步攻击检测结果