P

Prompt Injection Defender Large V0

由 testsavantai 开发
TestSavantAI模型是一组专为防御大型语言模型(LLM)提示注入和越狱攻击而设计的分类器,微型版基于BERT-tiny架构,平衡安全性与计算效率。
下载量 23
发布时间 : 11/27/2024
模型介绍
内容详情
替代品

模型简介

该模型用于检测和拦截针对AI系统的恶意提示注入和越狱尝试,保护语言模型免受滥用。

模型特点

防护效能评分(GES)
创新性综合指标,结合攻击成功率(ASR)与误拒率(FRR)评估模型鲁棒性
多尺寸变体
提供从微型到大型的不同规格模型以适应性能与计算效率需求
ONNX支持
提供ONNX运行时版本,优化推理性能

模型能力

恶意提示检测
越狱攻击拦截
文本分类
AI安全防护

使用案例

AI安全
ChatGPT防护
检测并拦截针对ChatGPT的越狱提示
有效降低恶意提示注入成功率
企业AI系统保护
保护企业部署的AI系统免受提示注入攻击
减少系统滥用风险