T

Toxic Prompt Roberta

由 Intel 开发
基于RoBERTa的文本分类模型,用于检测对话系统中的毒性提示和回复
下载量 416
发布时间 : 9/16/2024
模型介绍
内容详情
替代品

模型简介

该模型基于RoBERTa架构,在ToxicChat和Jigsaw Unintended Bias数据集上微调,专门用于识别对话中的毒性内容,可作为AI系统的安全护栏。

模型特点

双重数据集微调
同时在ToxicChat和Jigsaw Unintended Bias数据集上微调,提高检测准确性
伦理考量
训练时考虑了人口子组的公平性,减少分类偏差
高效推理
基于优化的RoBERTa架构,适合实时检测场景

模型能力

毒性文本检测
对话内容监控
实时内容审核

使用案例

用户体验监控
实时毒性检测
监控对话内容,检测用户毒性行为
可发出警告或提供行为指导
内容审核
自动审核系统
在群聊中自动删除毒性消息或禁言违规用户
维护健康的对话环境
AI安全
聊天机器人防护
阻止聊天机器人响应毒性输入
减少AI系统被滥用的风险