Text-Moderation开源英文文本分类模型 - 免费部署精准识别冒犯性内容

首页

Text Moderation

由 KoalaAI 开发

基于Deberta-v3架构的英文文本分类模型，用于识别冒犯性内容

文本分类

Transformers

英语开源协议:Openrail #英文内容审核 #多标签分类 #冒犯性内容检测

下载量 212.30k

发布时间 : 10/5/2023

模型简介

该模型用于预测文本是否包含可能被视为冒犯性的内容，包括色情、仇恨言论、暴力等9种分类标签

模型特点

多类别分类

支持9种冒犯性内容分类，包括色情、仇恨言论、暴力等敏感内容识别

伦理考量

模型设计包含伦理风险评估，要求使用者审慎考虑部署场景

低碳训练

训练过程二氧化碳排放量仅0.0397克

模型能力

文本内容审核

冒犯性内容检测

多标签分类

使用案例

内容审核

社交媒体内容过滤

自动识别并过滤平台上的冒犯性内容

准确率75%，可有效降低人工审核工作量

用户生成内容监控

实时检测评论、帖子等UGC中的不当内容

支持多种冒犯性内容类型识别

🚀 文本审核模型

本模型是一个基于Deberta - v3的文本分类模型，用于预测文本是否包含可能被视为冒犯性的内容。它为文本审核任务提供了高效且准确的解决方案。

🚀 快速开始

本模型是基于Deberta - v3的文本分类模型，用于预测文本是否包含可能被视为冒犯性的内容。它将文本分为以下几类标签：

类别	标签	定义
色情	`S`	旨在引起性兴奋的内容，如对性行为的描述，或推广性服务（不包括性教育和健康内容）。
仇恨	`H`	基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓表达、煽动或宣扬仇恨的内容。
暴力	`V`	宣扬或美化暴力，或庆祝他人痛苦或羞辱的内容。
骚扰	`HR`	可能用于在现实生活中折磨或骚扰个人，或增加骚扰发生可能性的内容。
自残	`SH`	宣扬、鼓励或描绘自残行为的内容，如自杀、割伤和饮食失调。
涉及未成年人的色情内容	`S3`	包含18岁以下个人的色情内容。
仇恨/威胁	`H2`	同时包含对目标群体的暴力或严重伤害的仇恨性内容。
暴力/血腥	`V2`	以极端详细的图形方式描绘死亡、暴力或严重身体伤害的暴力内容。
正常	`OK`	无冒犯性内容

需要注意的是，该模型仅在英文文本上进行了训练，对于非英文输入可能表现不佳。

✨ 主要特性

多类别分类：能够对文本进行多类别分类，涵盖色情、仇恨、暴力等多种冒犯性内容类别。
基于Deberta - v3：利用Deberta - v3的强大语言理解能力，提高分类的准确性。

📦 安装指南

本模型可通过以下方式使用：

使用cURL访问

$ curl -X POST -H "Authorization: Bearer YOUR_API_KEY" -H "Content-Type: application/json" -d '{"inputs": "I love AutoTrain"}' https://api-inference.huggingface.co/models/KoalaAI/Text-Moderation

使用Python API

from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 加载模型和分词器
model = AutoModelForSequenceClassification.from_pretrained("KoalaAI/Text-Moderation")
tokenizer = AutoTokenizer.from_pretrained("KoalaAI/Text-Moderation")

# 在输入上运行模型
inputs = tokenizer("I love AutoTrain", return_tensors="pt")
outputs = model(**inputs)

# 获取预测的对数几率
logits = outputs.logits

# 应用softmax函数获取概率（分数）
probabilities = logits.softmax(dim=-1).squeeze()

# 获取标签
id2label = model.config.id2label
labels = [id2label[idx] for idx in range(len(probabilities))]

# 组合标签和概率，然后排序
label_prob_pairs = list(zip(labels, probabilities))
label_prob_pairs.sort(key=lambda item: item[1], reverse=True)  

# 打印排序后的结果
for label, probability in label_prob_pairs:
    print(f"Label: {label} - Probability: {probability:.4f}")

💻 使用示例

基础用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 加载模型和分词器
model = AutoModelForSequenceClassification.from_pretrained("KoalaAI/Text-Moderation")
tokenizer = AutoTokenizer.from_pretrained("KoalaAI/Text-Moderation")

# 在输入上运行模型
inputs = tokenizer("I love AutoTrain", return_tensors="pt")
outputs = model(**inputs)

# 获取预测的对数几率
logits = outputs.logits

# 应用softmax函数获取概率（分数）
probabilities = logits.softmax(dim=-1).squeeze()

# 获取标签
id2label = model.config.id2label
labels = [id2label[idx] for idx in range(len(probabilities))]

# 组合标签和概率，然后排序
label_prob_pairs = list(zip(labels, probabilities))
label_prob_pairs.sort(key=lambda item: item[1], reverse=True)  

# 打印排序后的结果
for label, probability in label_prob_pairs:
    print(f"Label: {label} - Probability: {probability:.4f}")

上述Python代码的输出如下：

Label: OK - Probability: 0.9840
Label: H - Probability: 0.0043
Label: SH - Probability: 0.0039
Label: V - Probability: 0.0019
Label: S - Probability: 0.0018
Label: HR - Probability: 0.0015
Label: V2 - Probability: 0.0011
Label: S3 - Probability: 0.0010
Label: H2 - Probability: 0.0006

📚 详细文档

伦理考量

这是一个处理敏感且可能有害语言的模型。用户在其应用程序或场景中使用或部署此模型时，应考虑其伦理影响和潜在风险。可能出现的一些伦理问题包括：

模型可能会强化或放大数据或社会中现有的偏见或刻板印象。例如，模型可能基于数据中的频率或共现情况，将某些词语或主题与冒犯性语言关联起来，而不考虑其背后的含义或意图。这可能导致对某些群体或个人的预测不公平或不准确。

用户应仔细考虑使用此模型的目的、背景和影响，并采取适当措施防止或减轻任何潜在危害。用户还应尊重数据主体的隐私和同意，并遵守其所在司法管辖区的相关法律法规。

许可证

本模型遵循CodeML OpenRAIL - M 0.1许可证，这是BigCode OpenRAIL - M许可证的一个变体。此许可证允许您自由访问、使用、修改和分发此模型及其派生产品，用于研究、商业或非商业目的，但需遵守以下条件：

您必须在分发的模型副本或派生产品中包含许可证副本和模型的原始来源。
您不得将模型或其派生产品用于任何非法、有害、滥用、歧视性或冒犯性目的，或导致或促成任何社会或环境危害。
您必须尊重用于训练或评估模型的数据主体的隐私和同意，并遵守您所在司法管辖区的相关法律法规。
您必须承认模型及其派生产品是“按原样”提供的，没有任何形式的保证或担保，并且许可方不对您使用模型或其派生产品所产生的任何损害或损失负责。

通过访问或使用此模型，即表示您同意受此许可证条款的约束。如果您不同意此许可证的条款，则不得访问或使用此模型。

训练详情

问题类型：多类别分类
二氧化碳排放量（克）：0.0397

验证指标

指标	值
损失	0.848
准确率	0.749 (75%)
宏F1值	0.326
微F1值	0.749
加权F1值	0.703
宏精确率	0.321
微精确率	0.749
加权精确率	0.671
宏召回率	0.349
微召回率	0.749
加权召回率	0.749