unbiased-toxic-roberta开源毒性评论分类工具 - 免费部署三种Jigsaw竞赛模型

首页

Unbiased Toxic Roberta

由 unitary 开发

基于PyTorch Lightning和Hugging Face Transformers的毒性评论分类工具，提供针对Jigsaw竞赛训练的三种模型

文本分类开源协议:Apache-2.0 #毒性评论检测 #多语言支持 #内容审核

下载量 52.70k

发布时间 : 3/2/2022

模型简介

Detoxify是一个用于检测文本毒性的工具，包含针对不同Jigsaw竞赛训练的三种模型，能够识别威胁、淫秽、侮辱和基于身份仇恨等不同类型的毒性内容。

模型特点

多模型支持

提供三种针对不同Jigsaw竞赛训练的模型，分别适用于不同场景的毒性检测

多语言支持

multilingual模型支持7种语言的毒性检测

偏见最小化

unbiased模型专门针对减少身份提及相关的偏见进行了优化

模型能力

毒性内容检测

多标签分类

多语言文本分析

偏见评估

使用案例

内容审核

社交媒体评论审核

自动识别和标记社交媒体平台上的有毒评论

可帮助审核人员快速识别需要处理的评论

论坛内容过滤

过滤在线论坛中的侮辱性、威胁性或仇恨言论

维护健康的讨论环境

学术研究

语言偏见研究

研究不同语言和文化背景下的毒性表达方式

🚀 🙊 Detoxify

Detoxify是一个基于⚡ Pytorch Lightning和🤗 Transformers构建的工具，可用于预测3个Jigsaw挑战中的有毒评论，包括有毒评论分类、有毒评论中的意外偏差以及多语言有毒评论分类。

免责声明

⚠️ 重要提示

Hugging Face模型目前给出的结果与Detoxify库不同（请参阅此处的问题）。为了使用最新的模型，我们建议使用来自https://github.com/unitaryai/detoxify的模型。

Examples image

🚀 快速开始

快速预测

multilingual模型已经在7种不同的语言上进行了训练，因此只能在以下语言上进行测试：英语、法语、西班牙语、意大利语、葡萄牙语、土耳其语或俄语。

# 安装detoxify
pip install detoxify

from detoxify import Detoxify

# 每个模型可以接受一个字符串或一个字符串列表
results = Detoxify('original').predict('example text')
results = Detoxify('unbiased').predict(['example text 1', 'example text 2'])
results = Detoxify('multilingual').predict(['example text', 'exemple de texte', 'texto de ejemplo', 'testo di esempio', 'texto de esempio', 'örnek metin', 'пример текста'])

# 可选：美观地显示结果（需要安装pandas）
import pandas as pd
print(pd.DataFrame(results, index=input_text).round(5))

运行步骤

首先，安装依赖项：

# 克隆项目
git clone https://github.com/unitaryai/detoxify

# 创建虚拟环境
python3 -m venv toxic-env
source toxic-env/bin/activate

# 安装项目
pip install -e detoxify
cd detoxify

# 用于训练
pip install -r requirements.txt

✨ 主要特性

提供训练好的模型和代码，用于预测3个Jigsaw挑战中的有毒评论。
支持多语言有毒评论分类。
可以通过命令行或Python脚本进行快速预测。

📦 安装指南

安装依赖

# 克隆项目
git clone https://github.com/unitaryai/detoxify

# 创建虚拟环境
python3 -m venv toxic-env
source toxic-env/bin/activate

# 安装项目
pip install -e detoxify
cd detoxify

# 用于训练
pip install -r requirements.txt

安装Detoxify

pip install detoxify

💻 使用示例

基础用法

from detoxify import Detoxify

# 每个模型可以接受一个字符串或一个字符串列表
results = Detoxify('original').predict('example text')
results = Detoxify('unbiased').predict(['example text 1', 'example text 2'])
results = Detoxify('multilingual').predict(['example text', 'exemple de texte', 'texto de ejemplo', 'testo di esempio', 'texto de esempio', 'örnek metin', 'пример текста'])

# 可选：美观地显示结果（需要安装pandas）
import pandas as pd
print(pd.DataFrame(results, index=input_text).round(5))

高级用法

# 直接在评论上运行示例脚本进行快速预测，或从包含评论列表的txt文件中进行预测
# 通过torch.hub加载模型
python run_prediction.py --input 'example' --model_name original

# 从检查点路径加载模型
python run_prediction.py --input 'example' --from_ckpt_path model_path

# 将结果保存到.csv文件
python run_prediction.py --input test_set.txt --model_name original --save_to results.csv

# 查看用法
python run_prediction.py --help

📚 详细文档

模型信息

属性	详情
模型类型	`original`：`bert-base-uncased`；`unbiased`：`roberta-base`；`multilingual`：`xlm-roberta-base`
训练数据	`original`：Toxic Comment Classification Challenge；`unbiased`：Unintended Bias in Toxicity Classification；`multilingual`：Multilingual Toxic Comment Classification

标签信息

所有挑战都有一个毒性标签。毒性标签根据以下模式代表最多10名标注者的综合评分：

非常有毒（非常仇恨、攻击性或不尊重的评论，很可能会让你离开讨论或放弃分享你的观点）
有毒（粗鲁、不尊重或不合理的评论，有点可能会让你离开讨论或放弃分享你的观点）
难说
无毒

更多关于标签模式的信息可以在这里找到。

Toxic Comment Classification Challenge

此挑战包括以下标签：

toxic
severe_toxic
obscene
threat
insult
identity_hate

Jigsaw Unintended Bias in Toxicity Classification

此挑战有2种类型的标签：主要毒性标签和一些代表评论中提到的身份的额外身份标签。

只有在测试集（公共和私有组合）中示例数超过500的身份才会在训练期间作为额外标签包含在内，并在评估计算中使用。

toxicity
severe_toxicity
obscene
threat
insult
identity_attack
sexual_explicit

使用的身份标签：

male
female
homosexual_gay_or_lesbian
christian
jewish
muslim
black
white
psychiatric_or_mental_illness

所有可用身份标签的完整列表可以在这里找到。

Jigsaw Multilingual Toxic Comment Classification

由于此挑战结合了前2个挑战的数据，它包括上述所有标签，但最终评估仅针对：

toxicity

预测

训练好的模型总结：

模型名称	变压器类型	数据来源
`original`	`bert-base-uncased`	Toxic Comment Classification Challenge
`unbiased`	`roberta-base`	Unintended Bias in Toxicity Classification
`multilingual`	`xlm-roberta-base`	Multilingual Toxic Comment Classification

检查点可以从最新版本下载，或通过Pytorch hub API使用以下名称下载：

toxic_bert
unbiased_toxic_roberta
multilingual_toxic_xlm_r

model = torch.hub.load('unitaryai/detoxify', 'toxic_bert')

训练

如果你还没有Kaggle账户：

你需要创建一个才能下载数据。
转到“我的账户”并点击“创建新API令牌” - 这将下载一个kaggle.json文件。
确保此文件位于~/.kaggle中。

# 创建数据目录
mkdir jigsaw_data
cd jigsaw_data

# 下载数据
kaggle competitions download -c jigsaw-toxic-comment-classification-challenge
kaggle competitions download -c jigsaw-unintended-bias-in-toxicity-classification
kaggle competitions download -c jigsaw-multilingual-toxic-comment-classification

开始训练

Toxic Comment Classification Challenge

python create_val_set.py
python train.py --config configs/Toxic_comment_classification_BERT.json

Unintended Bias in Toxicicity Challenge

python train.py --config configs/Unintended_bias_toxic_comment_classification_RoBERTa.json

Multilingual Toxic Comment Classification

此模型分2个阶段训练。首先，在所有可用数据上训练，其次，仅在第一个挑战的翻译版本上训练。

翻译数据可以从Kaggle下载法语、西班牙语、意大利语、葡萄牙语、土耳其语和俄语（测试集中可用的语言）。

# 阶段1
python train.py --config configs/Multilingual_toxic_comment_classification_XLMR.json

# 阶段2
python train.py --config configs/Multilingual_toxic_comment_classification_XLMR_stage2.json

使用TensorBoard监控进度

tensorboard --logdir=./saved

模型评估

Toxic Comment Classification Challenge

此挑战根据所有标签的平均AUC分数进行评估。

python evaluate.py --checkpoint saved/lightning_logs/checkpoints/example_checkpoint.pth --test_csv test.csv

Unintended Bias in Toxicicity Challenge

此挑战根据一种新的偏差指标进行评估，该指标结合了不同的AUC分数以平衡整体性能。有关此指标的更多信息这里。

python evaluate.py --checkpoint saved/lightning_logs/checkpoints/example_checkpoint.pth --test_csv test.csv

# 获取最终偏差指标
python model_eval/compute_bias_metric.py

Multilingual Toxic Comment Classification

此挑战根据主要毒性标签的AUC分数进行评估。

python evaluate.py --checkpoint saved/lightning_logs/checkpoints/example_checkpoint.pth --test_csv test.csv

🔧 技术细节

局限性和伦理考虑

如果评论中存在与咒骂、侮辱或亵渎相关的词汇，无论作者的语气或意图（例如幽默/自嘲）如何，该评论很可能会被分类为有毒。这可能会对已经脆弱的少数群体产生一些偏见。

本库的预期用途是用于研究目的，在精心构建的反映现实世界人口统计数据的数据集上进行微调，和/或帮助内容审核人员更快地标记有害内容。

一些关于毒性或仇恨言论检测中不同偏差风险的有用资源：

📄 许可证

本项目采用Apache-2.0许可证。

引用

@misc{Detoxify,
  title={Detoxify},
  author={Hanu, Laura and {Unitary team}},
  howpublished={Github. https://github.com/unitaryai/detoxify},
  year={2020}
}