🚀 HateBERTimbau-YouTube-Twitter
HateBERTimbau-YouTube-Twitter 是一个基于Transformer的编码器模型,用于识别葡萄牙语社交媒体文本中的仇恨言论。它是 HateBERTimbau 模型的微调版本,在包含23,912条YouTube评论和21,546条推文的数据集上进行了重新训练,总计45,458条专门针对仇恨言论的在线消息。
🚀 快速开始
你可以直接使用此模型进行文本分类:
from transformers import pipeline
classifier = pipeline('text-classification', model='knowhate/HateBERTimbau-yt-tt')
classifier("as pessoas tem que perceber que ser 'panasca' não é deixar de ser homem, é deixar de ser humano 😂😂")
[{'label': 'Hate Speech', 'score': 0.9959186911582947}]
或者对该模型进行微调以用于特定任务或数据集:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import load_dataset
tokenizer = AutoTokenizer.from_pretrained("knowhate/HateBERTimbau-yt-tt")
model = AutoModelForSequenceClassification.from_pretrained("knowhate/HateBERTimbau-yt-tt")
dataset = load_dataset("knowhate/youtube-train")
def tokenize_function(examples):
return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)
training_args = TrainingArguments(output_dir="hatebertimbau", evaluation_strategy="epoch")
trainer = Trainer(
model=model,
args=training_args,
train_dataset=tokenized_datasets["train"],
eval_dataset=tokenized_datasets["validation"],
)
trainer.train()
✨ 主要特性
- 针对性训练:在专门的仇恨言论数据集上进行训练,能更精准地识别葡萄牙语社交媒体中的仇恨言论。
- 可微调性:可以根据特定任务或数据集进行微调,以适应不同的应用场景。
📚 详细文档
模型描述
模型使用
直接使用
使用文本分类管道直接进行分类:
from transformers import pipeline
classifier = pipeline('text-classification', model='knowhate/HateBERTimbau-yt-tt')
classifier("as pessoas tem que perceber que ser 'panasca' não é deixar de ser homem, é deixar de ser humano 😂😂")
[{'label': 'Hate Speech', 'score': 0.9959186911582947}]
微调使用
对模型进行微调以用于特定任务或数据集:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import load_dataset
tokenizer = AutoTokenizer.from_pretrained("knowhate/HateBERTimbau-yt-tt")
model = AutoModelForSequenceClassification.from_pretrained("knowhate/HateBERTimbau-yt-tt")
dataset = load_dataset("knowhate/youtube-train")
def tokenize_function(examples):
return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)
training_args = TrainingArguments(output_dir="hatebertimbau", evaluation_strategy="epoch")
trainer = Trainer(
model=model,
args=training_args,
train_dataset=tokenized_datasets["train"],
eval_dataset=tokenized_datasets["validation"],
)
trainer.train()
训练详情
训练数据
使用了23,912条YouTube评论和21,546条推文,总计45,458条与冒犯性内容相关的在线消息对基础模型进行微调。
训练超参数
属性 |
详情 |
批量大小 |
32 |
训练轮数 |
3 |
学习率 |
2e - 5(使用Adam优化器) |
最大序列长度 |
350个标记 |
测试详情
测试数据
用于测试该模型的数据集为:[knowhate/youtube - test](https://huggingface.co/datasets/knowhate/youtube - test) 和 [knowhate/twitter - test](https://huggingface.co/datasets/knowhate/twitter - test)
测试结果
数据集 |
精确率 |
召回率 |
F1分数 |
knowhate/youtube - test |
0.867 |
0.892 |
0.874 |
knowhate/twitter - test |
0.397 |
0.627 |
0.486 |
BibTeX引用
目前正在同行评审中
@article{
}
致谢
这项工作部分由欧盟根据CERV - 2021 - EQUAL(101049306)资助。然而,文中表达的观点和意见仅属于作者,不一定反映欧盟或Knowhate项目的观点。欧盟和Knowhate项目均不承担责任。
📄 许可证
本模型采用CC许可证。