L

Llama Prompt Guard 2 86M

由 meta-llama 开发
Llama Prompt Guard 2 是 Meta 推出的提示攻击检测模型系列,包含 86M 参数升级版和 22M 轻量版,用于检测大语言模型应用中的提示注入和越狱攻击。
下载量 16.24k
发布时间 : 4/28/2025
模型介绍
内容详情
替代品

模型简介

该模型系列旨在为大语言模型应用提供防护,检测两类提示攻击:提示注入和越狱攻击。86M 版本支持 8 种语言检测,22M 轻量版延迟降低 75%。

模型特点

性能提升
扩展训练数据并优化损失函数,降低误报率,86M 版 AUC 提升至 0.998。
轻量版优化
22M 轻量版基于 DeBERTa-xsmall,延迟降低 75%,适合对延迟敏感的应用场景。
抗对抗分词
优化分词策略防御空格操纵等攻击,提升模型鲁棒性。
二元分类简化
直接标注'良性'或'恶意',简化分类流程。

模型能力

提示注入检测
越狱攻击检测
多语言文本分类
低延迟推理

使用案例

大语言模型安全防护
提示注入防御
检测并拦截通过篡改第三方数据诱导模型执行非预期指令的攻击
86M 版将攻击预防率提升至 81.2%
越狱攻击拦截
识别恶意指令绕过内置安全防护的行为
22M 版攻击预防率达 78.4%
安全分析
滥用模式识别
辅助安全团队识别潜在的模型滥用模式