pangolin-guard-base开源模型 - 轻松识别恶意提示注入，免费提供AI安全防护

首页

Pangolin Guard Base

由 dcarpintero 开发

基于ModernBERT的轻量级模型，专注于识别恶意提示注入攻击，提供AI安全防护。

文本分类

Transformers

开源协议:Apache-2.0 #提示注入防御 #轻量级安全模型 #自托管防护

下载量 83

发布时间 : 3/15/2025

模型简介

潘高林防护是一个针对大语言模型（LLM）应用中的提示注入和越狱等安全挑战设计的防护模型。它能够识别恶意提示，防止敏感数据泄露或行为偏离预期。

模型特点

轻量级设计

基于ModernBERT的轻量级架构，适合自托管和低成本部署。

开源可用

完全开源，不同于部分未完全开源的现有防护模型。

上下文窗口优化

相比LlamaGuard等仅支持512词元的模型，提供更优的上下文处理能力。

多场景防护

能够识别多种类型的提示注入攻击，包括直接和间接提示注入。

模型能力

恶意提示检测

提示注入攻击防御

AI安全防护

文本分类

使用案例

AI安全

AI代理防护

为AI代理提供提示注入攻击的防御机制，防止恶意用户操纵AI行为。

有效识别并阻止恶意提示，保护AI代理安全运行。

对话界面安全

应用于对话界面，检测并过滤可能引发越狱或数据泄露的恶意输入。

提升对话系统的安全性，减少敏感信息泄露风险。

🚀 穿山甲防护基础版（PangolinGuard-Base）

大语言模型（LLM）应用在面临提示注入和越狱攻击时，面临着严重的安全挑战。这可能导致模型泄露敏感数据或偏离预期行为。现有的防护模型并非完全开源，且上下文窗口有限（例如，LlamaGuard 仅支持 512 个标记）。

穿山甲防护（Pangolin Guard） 是一款基于 ModernBERT（基础版）的轻量级模型，能够有效识别恶意提示（即提示注入攻击）。

🤗 技术博客 | GitHub 仓库

🚀 快速开始

推理示例

from transformers import pipeline

classifier = pipeline("text-classification", "dcarpintero/pangolin-guard-base")
text = "your input text"
output = classifier(text)

✨ 主要特性

为人工智能代理和对话界面添加一种自托管、低成本的防御机制，以抵御提示注入攻击。

📚 详细文档

评估数据

该模型在专门针对提示安全和恶意输入检测的基准测试子集的未见数据上进行了评估，同时测试了过度防御行为：

NotInject：通过包含丰富的常见于提示注入攻击的触发词的良性输入，来衡量提示防护模型的过度防御情况。
BIPIA：通过间接提示注入攻击评估隐私侵犯尝试和边界突破查询。
Wildguard-Benign：代表合法但可能存在歧义的提示。
PINT：评估特别细微的提示注入、越狱攻击以及可能被误识别为恶意的良性提示。

image/png

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：5e-05
训练批次大小（train_batch_size）：64
评估批次大小（eval_batch_size）：32
随机种子（seed）：42
优化器（optimizer）：使用 OptimizerNames.ADAMW_TORCH_FUSED，β值为(0.9, 0.999)，ε值为 1e-08，无额外优化器参数
学习率调度器类型（lr_scheduler_type）：线性
训练轮数（num_epochs）：2

训练结果

训练损失	轮数	步数	验证损失	F1 分数	准确率
0.1622	0.1042	100	0.0755	0.9604	0.9741
0.0694	0.2083	200	0.0525	0.9735	0.9828
0.0552	0.3125	300	0.0857	0.9696	0.9810
0.0535	0.4167	400	0.0345	0.9825	0.9889
0.0371	0.5208	500	0.0343	0.9821	0.9887
0.0402	0.625	600	0.0344	0.9836	0.9894
0.037	0.7292	700	0.0282	0.9869	0.9917
0.0265	0.8333	800	0.0229	0.9895	0.9933
0.0285	0.9375	900	0.0240	0.9885	0.9926
0.0191	1.0417	1000	0.0220	0.9908	0.9941
0.0134	1.1458	1100	0.0228	0.9911	0.9943
0.0124	1.25	1200	0.0230	0.9898	0.9935
0.0136	1.3542	1300	0.0212	0.9910	0.9943
0.0088	1.4583	1400	0.0229	0.9911	0.9943
0.0115	1.5625	1500	0.0211	0.9922	0.9950
0.0058	1.6667	1600	0.0233	0.9920	0.9949
0.0119	1.7708	1700	0.0199	0.9916	0.9946
0.0072	1.875	1800	0.0206	0.9925	0.9952
0.007	1.9792	1900	0.0196	0.9923	0.9950

框架版本

Transformers 4.50.0
Pytorch 2.6.0+cu124
Datasets 3.4.1
Tokenizers 0.21.1

📄 许可证

本项目采用 Apache-2.0 许可证。

📦 模型信息

属性	详情
库名称	transformers
许可证	Apache-2.0
基础模型	answerdotai/ModernBERT-base
标签	AI 安全、防护措施、护栏
评估指标	F1、准确率
模型名称	pangolin-guard-base