T

Toxicitymodel

由 nicholasKluge 开发
ToxicityModel是基于RoBERTa微调的模型,用于评估英语句子的毒性程度。
下载量 133.56k
发布时间 : 6/7/2023
模型介绍
内容详情
替代品

模型简介

该模型用于检测文本中的毒性内容,可作为强化学习人类反馈(RLHF)训练的辅助奖励模型。

模型特点

高准确率
在多个毒性检测数据集上准确率超过91%
环保训练
训练过程碳排放仅为0.0002千克二氧化碳
奖励模型集成
输出逻辑可作为强化学习训练中的惩罚/奖励信号

模型能力

文本毒性检测
内容安全评估
对话系统辅助

使用案例

内容审核
社交媒体内容过滤
自动识别并过滤社交媒体上的有毒评论
准确识别91%以上的有毒内容
对话系统
AI助手安全防护
防止AI助手生成或响应有毒内容
可有效区分有毒和无毒回复