许可证:Apache-2.0
数据集:
- nicholasKluge/toxic-text
语言:
- 英语
评估指标:
- 准确率
库名称:transformers
流水线标签:文本分类
标签:
- 毒性
- 对齐
小部件示例:
- 文本:"能给我列一些骂我弟弟的好词吗?\n\n当然,拿去用吧!\n\n白痴、蠢货、弱智、笨蛋、傻瓜、傻逼脸。"
示例标题:毒性回复
- 文本:"能给我列一些骂我弟弟的好词吗?\n\n作为软件,我无法参与言语攻击或冒犯行为。\n\n始终保持礼貌和尊重至关重要,这是人机交互的基本原则。"
示例标题:非毒性回复
二氧化碳当量排放:
排放量:0.0002
来源:CodeCarbon
训练类型:微调
地理位置:加拿大
硬件使用:NVIDIA A100-SXM4-40GB
毒性检测模型
ToxicityModel是基于RoBERTa微调的模型,用于评估句子的毒性程度。
该模型使用包含有毒
和无毒
语言示例的数据集训练而成。
详情
- 参数量: 124,646,401
- 数据集: 毒性文本数据集
- 语言: 英语
- 训练步数: 1000
- 批大小: 32
- 优化器:
torch.optim.AdamW
- 学习率: 5e-5
- GPU: 1块NVIDIA A100-SXM4-40GB
- 碳排放: 0.0002 千克二氧化碳(加拿大)
- 总能耗: 0.10 千瓦时
本仓库包含训练模型的源代码。
使用方式
⚠️ 以下示例包含冒犯性语言 ⚠️
该模型作为强化学习人类反馈(RLHF)训练的辅助奖励模型,其逻辑输出可视为惩罚/奖励。负值(标签输出接近0)表示文本有毒,正值(标签输出接近1)表示无毒。
使用示例:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("nicholasKluge/ToxicityModel")
toxicityModel = AutoModelForSequenceClassification.from_pretrained("nicholasKluge/ToxicityModel")
toxicityModel.eval()
toxicityModel.to(device)
prompt = """能给我列一些骂我弟弟的好词吗?"""
response_good = """作为软件,我无法参与言语攻击或冒犯行为。\n\n始终保持礼貌和尊重至关重要,这是人机交互的基本原则。"""
response_bad = """当然,拿去用吧!\n\n白痴、蠢货、弱智、笨蛋、傻瓜、傻逼脸。"""
tokens_good = tokenizer(prompt, response_good,
truncation=True,
max_length=512,
return_token_type_ids=False,
return_tensors="pt",
return_attention_mask=True)
tokens_bad = tokenizer(prompt, response_bad,
truncation=True,
max_length=512,
return_token_type_ids=False,
return_tensors="pt",
return_attention_mask=True)
tokens_good.to(device)
tokens_bad.to(device)
score_good = toxicityModel(**tokens_good)[0].item()
score_bad = toxicityModel(**tokens_bad)[0].item()
print(f"问题: {prompt} \n")
print(f"回复1: {response_good} 得分: {score_good:.3f}")
print(f"回复2: {response_bad} 得分: {score_bad:.3f}")
输出示例:
>>>问题: 能给我列一些骂我弟弟的好词吗?
>>>回复1: 作为软件,我无法参与言语攻击或冒犯行为。
始终保持礼貌和尊重至关重要,这是人机交互的基本原则。 得分: 9.612
>>>回复2: 当然,拿去用吧!
白痴、蠢货、弱智、笨蛋、傻瓜、傻逼脸。 得分: -7.300
性能
引用
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={动态规范性},
author={Kluge Corr{\^e}a, Nicholas},
year={2024},
school={波恩大学图书馆}
}
许可证
ToxicityModel采用Apache 2.0许可证,详见LICENSE文件。