G

Gentelshield V1

由 GenTelLab 开发
GenTel-Shield是一个专注于检测和防御提示词注入攻击的模型,能够有效区分恶意样本与良性样本。
下载量 35
发布时间 : 9/9/2024
模型介绍
内容详情
替代品

模型简介

该模型主要用于检测和防御针对大语言模型的提示词注入攻击,包括越狱攻击、目标劫持和提示泄露等安全威胁。

模型特点

高效检测
在Gentel-Bench基准测试中表现出色,准确率高达97%以上
鲁棒性强
通过数据增强技术提升模型对抗样本的识别能力
全面防御
覆盖越狱攻击、目标劫持和提示泄露三大类攻击场景

模型能力

恶意提示词检测
文本分类
安全防御

使用案例

大语言模型安全
越狱攻击防御
检测并阻止用户试图绕过LLM安全限制的恶意提示词
准确率97.63%,F1值97.69
目标劫持防护
防止攻击者通过精心设计的提示词劫持LLM的原始目标
准确率96.81%,F1值96.74
提示泄露防护
保护LLM系统提示不被恶意用户提取
准确率97.92%,F1值97.89