HateBERTimbau-yt-tt开源模型 - 免费检测葡萄牙语社交媒体仇恨言论

首页

Hatebertimbau Yt Tt

由 knowhate 开发

基于Transformer的葡萄牙语社交媒体仇恨言论检测模型

文本分类

Transformers

其他开源协议:CC #葡萄牙语仇恨言论检测 #社交媒体文本分类 #高精度仇恨识别

下载量 77

发布时间 : 5/11/2024

模型简介

该模型是HateBERTimbau的微调版本，专门用于识别葡萄牙语社交媒体文本中的仇恨言论，在YouTube评论和推文数据集上进行了训练。

模型特点

葡萄牙语优化

专门针对葡萄牙语社交媒体内容进行优化

多平台适用

在YouTube和Twitter两大平台数据上训练，适用于不同社交媒体环境

高精度检测

在YouTube测试集上达到0.874的F1分数

模型能力

葡萄牙语文本分类

仇恨言论识别

社交媒体内容分析

使用案例

内容审核

社交媒体仇恨言论过滤

自动识别并标记社交媒体中的仇恨言论内容

在YouTube测试集上F1分数达0.874

社会研究

仇恨言论趋势分析

分析葡萄牙语社交媒体中仇恨言论的分布和特征

🚀 HateBERTimbau-YouTube-Twitter

HateBERTimbau-YouTube-Twitter 是一个基于Transformer的编码器模型，用于识别葡萄牙语社交媒体文本中的仇恨言论。它是 HateBERTimbau 模型的微调版本，在包含23,912条YouTube评论和21,546条推文的数据集上进行了重新训练，总计45,458条专门针对仇恨言论的在线消息。

🚀 快速开始

你可以直接使用此模型进行文本分类：

from transformers import pipeline
classifier = pipeline('text-classification', model='knowhate/HateBERTimbau-yt-tt')

classifier("as pessoas tem que perceber que ser 'panasca' não é deixar de ser homem, é deixar de ser humano 😂😂")

[{'label': 'Hate Speech', 'score': 0.9959186911582947}]

或者对该模型进行微调以用于特定任务或数据集：

from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import load_dataset

tokenizer = AutoTokenizer.from_pretrained("knowhate/HateBERTimbau-yt-tt")
model = AutoModelForSequenceClassification.from_pretrained("knowhate/HateBERTimbau-yt-tt")
dataset = load_dataset("knowhate/youtube-train")

def tokenize_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

training_args = TrainingArguments(output_dir="hatebertimbau", evaluation_strategy="epoch")
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
)

trainer.train()

✨ 主要特性

针对性训练：在专门的仇恨言论数据集上进行训练，能更精准地识别葡萄牙语社交媒体中的仇恨言论。
可微调性：可以根据特定任务或数据集进行微调，以适应不同的应用场景。

📚 详细文档

模型描述

开发者：kNOwHATE: kNOwing online HATE speech: knowledge + awareness = TacklingHate
资助方：欧盟
模型类型：基于Transformer的文本分类模型，针对葡萄牙语社交媒体文本中的仇恨言论检测进行了微调
语言：葡萄牙语
微调基础模型：knowhate/HateBERTimbau

模型使用

直接使用

使用文本分类管道直接进行分类：

from transformers import pipeline
classifier = pipeline('text-classification', model='knowhate/HateBERTimbau-yt-tt')

classifier("as pessoas tem que perceber que ser 'panasca' não é deixar de ser homem, é deixar de ser humano 😂😂")

[{'label': 'Hate Speech', 'score': 0.9959186911582947}]

微调使用

对模型进行微调以用于特定任务或数据集：

from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import load_dataset

tokenizer = AutoTokenizer.from_pretrained("knowhate/HateBERTimbau-yt-tt")
model = AutoModelForSequenceClassification.from_pretrained("knowhate/HateBERTimbau-yt-tt")
dataset = load_dataset("knowhate/youtube-train")

def tokenize_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

training_args = TrainingArguments(output_dir="hatebertimbau", evaluation_strategy="epoch")
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
)

trainer.train()

训练详情

训练数据

使用了23,912条YouTube评论和21,546条推文，总计45,458条与冒犯性内容相关的在线消息对基础模型进行微调。

训练超参数

属性	详情
批量大小	32
训练轮数	3
学习率	2e - 5（使用Adam优化器）
最大序列长度	350个标记

测试详情

测试数据

用于测试该模型的数据集为：[knowhate/youtube - test](https://huggingface.co/datasets/knowhate/youtube - test) 和 [knowhate/twitter - test](https://huggingface.co/datasets/knowhate/twitter - test)