D

Deberta V3 Base Prompt Injection

由 protectai 开发
基于DeBERTa-v3微调的提示注入检测模型,用于识别恶意提示输入
下载量 35.13k
发布时间 : 11/25/2023
模型介绍
内容详情
替代品

模型简介

该模型专门用于检测提示注入攻击,将输入文本分类为正常提示或恶意注入提示,帮助保护AI系统安全。

模型特点

高精度检测
在评估集上达到99.99%的准确率和99.98%的F1值
多数据集训练
基于12个不同来源的数据集训练,涵盖多种提示注入模式
多框架支持
提供原生Transformers和ONNX两种运行方式
生态集成
支持与Langchain和LLM Guard等流行框架集成

模型能力

文本分类
恶意输入检测
安全防护

使用案例

AI安全
聊天机器人防护
防止恶意用户通过提示注入攻击操纵聊天机器人行为
有效识别99.7%的注入尝试
API安全网关
在API网关层检测并拦截潜在的恶意提示
内容审核
有害内容过滤
识别试图绕过内容限制的恶意提示