D

Deberta V3 Base Prompt Injection V2

由 protectai 开发
基于DeBERTa-v3-base微调的提示词注入检测模型,用于识别可能操纵语言模型的恶意提示词
下载量 229.97k
发布时间 : 4/20/2024

模型简介

该模型专门用于检测和分类可能操纵语言模型产生意外输出的提示词注入攻击,增强语言模型应用的安全性

模型特点

高准确率检测
在独立测试集上达到95.25%的准确率和99.74%的召回率
多数据集训练
整合多个公开数据集,涵盖广泛的提示词变体
专注英语提示词
专门优化英语提示词注入检测能力
社区驱动改进
根据社区反馈持续优化模型性能

模型能力

提示词注入检测
文本分类
安全防护

使用案例

大语言模型安全
聊天机器人防护
检测并阻止试图操纵聊天机器人输出的恶意提示词
有效防止有害内容生成
API安全网关
集成到API网关中过滤恶意提示词请求
提升语言模型API的安全性
AIbase
智启未来,您的人工智能解决方案智库
简体中文