P

Prompt Injection Defender Large V0 Onnx

由 testsavantai 开发
TestSavantAI模型是一组经过微调的分类器,专门设计用于防御针对大型语言模型(LLM)的提示注入和越狱攻击。
下载量 3,225
发布时间 : 11/27/2024
模型介绍
内容详情
替代品

模型简介

该模型采用BERT架构,专注于检测和拦截恶意提示,保护LLM免受提示注入和越狱攻击。

模型特点

防护效能评分(GES)
综合攻击成功率(ASR)与误拒率(FRR)的创新评估指标
多尺寸变体
提供不同规格模型以平衡性能与计算效率
ONNX支持
提供ONNX版本,便于部署和优化推理性能

模型能力

恶意提示检测
越狱攻击防御
文本分类

使用案例

AI安全
提示注入防御
检测并拦截试图绕过LLM安全限制的恶意提示
有效降低提示注入攻击的成功率
越狱攻击防护
防止用户通过特殊构造的提示获取LLM的未授权访问
减少LLM被滥用的风险