M

Mdeberta V3 Base Prompt Injection

由 proventra 开发
基于microsoft/mdeberta-v3-base微调的提示注入检测模型,整合多个数据集训练,用于识别恶意提示注入攻击。
下载量 136
发布时间 : 4/10/2025
模型介绍
内容详情
替代品

模型简介

该模型专门用于检测大语言模型中的提示注入攻击,能识别嵌套在合法内容中的恶意指令,保障AI系统安全。

模型特点

多源数据训练
整合了公开数据集和自定义数据集,覆盖多种注入攻击模式
嵌套内容检测
能识别隐藏在合法网站内容或文章中的恶意指令
轻量级部署
基于高效能的mDeBERTa-v3架构,平衡检测精度与推理速度

模型能力

文本安全分析
恶意指令识别
多语言注入检测

使用案例

AI安全防护
聊天机器人防护
防止用户通过精心设计的提示词绕过AI安全限制
有效拦截90%以上的已知注入模式(基于测试数据)
API安全网关
在AI服务API前端部署检测层
实时阻断恶意请求
内容审核
用户生成内容筛查
检测论坛/社区中试图诱导AI的隐蔽指令