Text Moderation
基于Deberta-v3架构的英文文本分类模型,用于识别冒犯性内容
下载量 212.30k
发布时间 : 10/5/2023
模型简介
该模型用于预测文本是否包含可能被视为冒犯性的内容,包括色情、仇恨言论、暴力等9种分类标签
模型特点
多类别分类
支持9种冒犯性内容分类,包括色情、仇恨言论、暴力等敏感内容识别
伦理考量
模型设计包含伦理风险评估,要求使用者审慎考虑部署场景
低碳训练
训练过程二氧化碳排放量仅0.0397克
模型能力
文本内容审核
冒犯性内容检测
多标签分类
使用案例
内容审核
社交媒体内容过滤
自动识别并过滤平台上的冒犯性内容
准确率75%,可有效降低人工审核工作量
用户生成内容监控
实时检测评论、帖子等UGC中的不当内容
支持多种冒犯性内容类型识别
🚀 文本审核模型
本模型是一个基于Deberta - v3的文本分类模型,用于预测文本是否包含可能被视为冒犯性的内容。它为文本审核任务提供了高效且准确的解决方案。
🚀 快速开始
本模型是基于Deberta - v3的文本分类模型,用于预测文本是否包含可能被视为冒犯性的内容。它将文本分为以下几类标签:
类别 | 标签 | 定义 |
---|---|---|
色情 | S |
旨在引起性兴奋的内容,如对性行为的描述,或推广性服务(不包括性教育和健康内容)。 |
仇恨 | H |
基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓表达、煽动或宣扬仇恨的内容。 |
暴力 | V |
宣扬或美化暴力,或庆祝他人痛苦或羞辱的内容。 |
骚扰 | HR |
可能用于在现实生活中折磨或骚扰个人,或增加骚扰发生可能性的内容。 |
自残 | SH |
宣扬、鼓励或描绘自残行为的内容,如自杀、割伤和饮食失调。 |
涉及未成年人的色情内容 | S3 |
包含18岁以下个人的色情内容。 |
仇恨/威胁 | H2 |
同时包含对目标群体的暴力或严重伤害的仇恨性内容。 |
暴力/血腥 | V2 |
以极端详细的图形方式描绘死亡、暴力或严重身体伤害的暴力内容。 |
正常 | OK |
无冒犯性内容 |
需要注意的是,该模型仅在英文文本上进行了训练,对于非英文输入可能表现不佳。
✨ 主要特性
- 多类别分类:能够对文本进行多类别分类,涵盖色情、仇恨、暴力等多种冒犯性内容类别。
- 基于Deberta - v3:利用Deberta - v3的强大语言理解能力,提高分类的准确性。
📦 安装指南
本模型可通过以下方式使用:
使用cURL访问
$ curl -X POST -H "Authorization: Bearer YOUR_API_KEY" -H "Content-Type: application/json" -d '{"inputs": "I love AutoTrain"}' https://api-inference.huggingface.co/models/KoalaAI/Text-Moderation
使用Python API
from transformers import AutoModelForSequenceClassification, AutoTokenizer
# 加载模型和分词器
model = AutoModelForSequenceClassification.from_pretrained("KoalaAI/Text-Moderation")
tokenizer = AutoTokenizer.from_pretrained("KoalaAI/Text-Moderation")
# 在输入上运行模型
inputs = tokenizer("I love AutoTrain", return_tensors="pt")
outputs = model(**inputs)
# 获取预测的对数几率
logits = outputs.logits
# 应用softmax函数获取概率(分数)
probabilities = logits.softmax(dim=-1).squeeze()
# 获取标签
id2label = model.config.id2label
labels = [id2label[idx] for idx in range(len(probabilities))]
# 组合标签和概率,然后排序
label_prob_pairs = list(zip(labels, probabilities))
label_prob_pairs.sort(key=lambda item: item[1], reverse=True)
# 打印排序后的结果
for label, probability in label_prob_pairs:
print(f"Label: {label} - Probability: {probability:.4f}")
💻 使用示例
基础用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
# 加载模型和分词器
model = AutoModelForSequenceClassification.from_pretrained("KoalaAI/Text-Moderation")
tokenizer = AutoTokenizer.from_pretrained("KoalaAI/Text-Moderation")
# 在输入上运行模型
inputs = tokenizer("I love AutoTrain", return_tensors="pt")
outputs = model(**inputs)
# 获取预测的对数几率
logits = outputs.logits
# 应用softmax函数获取概率(分数)
probabilities = logits.softmax(dim=-1).squeeze()
# 获取标签
id2label = model.config.id2label
labels = [id2label[idx] for idx in range(len(probabilities))]
# 组合标签和概率,然后排序
label_prob_pairs = list(zip(labels, probabilities))
label_prob_pairs.sort(key=lambda item: item[1], reverse=True)
# 打印排序后的结果
for label, probability in label_prob_pairs:
print(f"Label: {label} - Probability: {probability:.4f}")
上述Python代码的输出如下:
Label: OK - Probability: 0.9840
Label: H - Probability: 0.0043
Label: SH - Probability: 0.0039
Label: V - Probability: 0.0019
Label: S - Probability: 0.0018
Label: HR - Probability: 0.0015
Label: V2 - Probability: 0.0011
Label: S3 - Probability: 0.0010
Label: H2 - Probability: 0.0006
📚 详细文档
伦理考量
这是一个处理敏感且可能有害语言的模型。用户在其应用程序或场景中使用或部署此模型时,应考虑其伦理影响和潜在风险。可能出现的一些伦理问题包括:
- 模型可能会强化或放大数据或社会中现有的偏见或刻板印象。例如,模型可能基于数据中的频率或共现情况,将某些词语或主题与冒犯性语言关联起来,而不考虑其背后的含义或意图。这可能导致对某些群体或个人的预测不公平或不准确。
用户应仔细考虑使用此模型的目的、背景和影响,并采取适当措施防止或减轻任何潜在危害。用户还应尊重数据主体的隐私和同意,并遵守其所在司法管辖区的相关法律法规。
许可证
本模型遵循CodeML OpenRAIL - M 0.1许可证,这是BigCode OpenRAIL - M许可证的一个变体。此许可证允许您自由访问、使用、修改和分发此模型及其派生产品,用于研究、商业或非商业目的,但需遵守以下条件:
- 您必须在分发的模型副本或派生产品中包含许可证副本和模型的原始来源。
- 您不得将模型或其派生产品用于任何非法、有害、滥用、歧视性或冒犯性目的,或导致或促成任何社会或环境危害。
- 您必须尊重用于训练或评估模型的数据主体的隐私和同意,并遵守您所在司法管辖区的相关法律法规。
- 您必须承认模型及其派生产品是“按原样”提供的,没有任何形式的保证或担保,并且许可方不对您使用模型或其派生产品所产生的任何损害或损失负责。
通过访问或使用此模型,即表示您同意受此许可证条款的约束。如果您不同意此许可证的条款,则不得访问或使用此模型。
训练详情
- 问题类型:多类别分类
- 二氧化碳排放量(克):0.0397
验证指标
指标 | 值 |
---|---|
损失 | 0.848 |
准确率 | 0.749 (75%) |
宏F1值 | 0.326 |
微F1值 | 0.749 |
加权F1值 | 0.703 |
宏精确率 | 0.321 |
微精确率 | 0.749 |
加权精确率 | 0.671 |
宏召回率 | 0.349 |
微召回率 | 0.749 |
加权召回率 | 0.749 |
📄 许可证
本模型遵循CodeML OpenRAIL - M 0.1许可证,这是BigCode OpenRAIL - M许可证的一个变体。此许可证允许您自由访问、使用、修改和分发此模型及其派生产品,用于研究、商业或非商业目的,但需遵守以下条件:
- 您必须在分发的模型副本或派生产品中包含许可证副本和模型的原始来源。
- 您不得将模型或其派生产品用于任何非法、有害、滥用、歧视性或冒犯性目的,或导致或促成任何社会或环境危害。
- 您必须尊重用于训练或评估模型的数据主体的隐私和同意,并遵守您所在司法管辖区的相关法律法规。
- 您必须承认模型及其派生产品是“按原样”提供的,没有任何形式的保证或担保,并且许可方不对您使用模型或其派生产品所产生的任何损害或损失负责。
通过访问或使用此模型,即表示您同意受此许可证条款的约束。如果您不同意此许可证的条款,则不得访问或使用此模型。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型,准确率91.3%
文本分类 英语
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基于XLM-RoBERTa的多语言检测模型,支持20种语言的文本分类
文本分类
Transformers 支持多种语言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
该模型通过动态生成数据集来改进在线仇恨检测,专注于从最差案例中学习以提高检测效果。
文本分类
Transformers 英语

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基于bert-base-multilingual-uncased微调的多语言情感分析模型,支持6种语言的商品评论情感分析
文本分类 支持多种语言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基于DistilRoBERTa-base微调的英文文本情感分类模型,可预测埃克曼六种基本情绪及中性类别。
文本分类
Transformers 英语

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基于RoBERTuito的西班牙语推文情感分析模型,支持POS(积极)/NEG(消极)/NEU(中性)三类情感分类
文本分类 西班牙语
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基于金融通讯文本预训练的BERT模型,专注于金融自然语言处理领域。finbert-tone是其微调版本,用于金融情感分析任务。
文本分类
Transformers 英语

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基于RoBERTa-base的多标签情感分类模型,在go_emotions数据集上训练,支持28种情感标签识别。
文本分类
Transformers 英语

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一个基于XLM-T模型微调的多语言情感分析模型,支持19种语言,专门针对社交媒体文本的情感预测。
文本分类
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基于MultiNLI、Fever-NLI和ANLI数据集训练的DeBERTa-v3模型,擅长零样本分类和自然语言推理任务
文本分类
Transformers 英语

D
MoritzLaurer
613.93k
204
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文