jailbreak-classifier开源文本分类模型 - 免费部署检测提示越狱尝试

Jailbreak Classifier

由 jackhhao 开发

基于bert-base-uncased微调的文本分类模型，用于检测用户提示中的越狱尝试

下载量 7,619

发布时间 : 9/30/2023

模型简介

该模型专门用于内容审核场景，能够将用户提示分类为越狱尝试或良性请求，帮助维护AI系统的安全性。

越狱检测

能够准确识别用户提示中的越狱尝试，保护AI系统免受恶意攻击

基于BERT

基于bert-base-uncased微调，继承了BERT强大的文本理解能力

内容审核

专为AI系统内容审核场景优化，帮助维护系统安全

文本分类

越狱检测

内容审核

提示注入识别

AI安全

聊天机器人防护

检测用户对聊天机器人的越狱尝试

有效阻止恶意提示注入

内容审核系统

作为AI系统的第一道防线过滤恶意请求

提高系统安全性

属性	详情
模型类型	基于微调后的 bert-base-uncased 的文本分类模型
训练数据	Open-Orca/OpenOrca、jackhhao/jailbreak-classification
评估指标	准确率（accuracy）
库名称	transformers
任务类型	文本分类（text-classification）
标签	越狱（jailbreak）、安全（security）、审核（moderation）、提示注入（prompt-injection）