指标:
模型详情
GenTel-Shield检测模型的开发遵循五步流程。首先通过收集网络公开数据和专家贡献构建训练数据集,随后进行二元标注与清洗以确保数据质量。接着运用数据增强技术扩展数据集规模,继而采用预训练模型进行训练。最终训练完成的模型能够有效区分恶意样本与良性样本。
下图展示了GenTel-Shield的工作流程。

训练数据准备
数据收集
训练数据主要来自两大渠道:一是包含jailbreakchat.com、reddit.com等公开平台的风险数据,以及VMware Open-Instruct数据集、Chatbot Instruction Prompts等LLM应用成熟数据集;二是由领域专家标注的样本,将提示词划分为有害注入攻击样本和良性样本两大类。
数据增强
针对实际场景中存在的对抗样本(如添加无意义字符或删减词语)可能绕过防御模型检测并引发危险行为的情况,我们通过数据增强提升检测模型鲁棒性。增强策略聚焦样本的语义改写和字符级扰动:在字符扰动方面采用同义词替换、随机插入、随机交换和随机删除四种基础操作;在语义增强方面利用大语言模型进行文本重写,从而生成更丰富的训练样本。
模型训练细节
基于构建的文本对训练数据集,我们从多语言E5文本嵌入模型初始化GenTel-Shield进行微调。训练在单台配备NVIDIA GeForce RTX 4090D(24GB)显卡的机器上进行,批次大小为32。采用2e-5学习率配合余弦学习率调度器,设置0.01权重衰减防止过拟合。为优化显存使用,启用混合精度(fp16)训练。训练过程包含500步热身阶段,并实施最大范数为1.0的梯度裁剪。
评估体系
基准数据集
Gentel-Bench为评估模型抗注入攻击鲁棒性提供全面框架:其良性数据高度贴合LLM实际应用场景,涵盖十大使用类别;恶意数据包含84,812条提示词注入攻击样本,分布于3大攻击类型28个细分安全场景。
评测表现
在Gentel-Bench上评估模型检测越狱攻击、目标劫持和提示泄露三类攻击的效果。结果显示我们的方法在多数场景下优于现有方案,尤其在准确率和F1分数方面表现突出。
越狱攻击场景分类表现
方法 |
准确率↑ |
精确率↑ |
F1值↑ |
召回率↑ |
ProtectAI |
89.46 |
99.59 |
88.62 |
79.83 |
Hyperion |
94.70 |
94.21 |
94.88 |
95.57 |
Prompt Guard |
50.58 |
51.03 |
66.85 |
96.88 |
Lakera AI |
87.20 |
92.12 |
86.84 |
82.14 |
Deepset |
65.69 |
60.63 |
75.49 |
100 |
Fmops |
63.35 |
59.04 |
74.25 |
100 |
WhyLabs LangKit |
78.86 |
98.48 |
75.28 |
60.92 |
GenTel-Shield(本方案) |
97.63 |
98.04 |
97.69 |
97.34 |
目标劫持攻击场景分类表现
方法 |
准确率↑ |
精确率↑ |
F1值↑ |
召回率↑ |
ProtectAI |
94.25 |
99.79 |
93.95 |
88.76 |
Hyperion |
90.68 |
94.53 |
90.33 |
86.48 |
Prompt Guard |
50.90 |
50.61 |
67.21 |
100 |
Lakera AI |
74.63 |
88.59 |
69.33 |
56.95 |
Deepset |
63.40 |
57.90 |
73.34 |
100 |
Fmops |
61.03 |
56.36 |
72.09 |
100 |
WhyLabs LangKit |
68.14 |
97.53 |
54.35 |
37.67 |
GenTel-Shield(本方案) |
96.81 |
99.44 |
96.74 |
94.19 |
提示泄露攻击场景分类表现
方法 |
准确率↑ |
精确率↑ |
F1值↑ |
召回率↑ |
ProtectAI |
90.94 |
99.77 |
90.06 |
82.08 |
Hyperion |
90.85 |
95.01 |
90.41 |
86.23 |
Prompt Guard |
50.28 |
50.14 |
66.79 |
100 |
Lakera AI |
96.04 |
93.11 |
96.17 |
99.43 |
Deepset |
61.79 |
57.08 |
71.34 |
95.09 |
Fmops |
58.77 |
55.07 |
69.80 |
95.28 |
WhyLabs LangKit |
99.34 |
99.62 |
99.34 |
99.06 |
GenTel-Shield(本方案) |
97.92 |
99.42 |
97.89 |
96.42 |
细分场景表现

引用文献
李荣昌等. "GenTel-Safe:防御提示词注入攻击的统一基准与防护框架". arXiv预印本 arXiv:2409.19521 (2024).