许可协议: cc
语言:
- 葡萄牙语
标签:
- 仇恨言论
- kNOwHATE
- 非全年龄段适用
小部件示例:
- 文本: >-
人们必须明白,成为"泛性恋"不是放弃做男人,而是放弃做人😂😂
任务类型: 文本分类
数据集:
- knowhate/youtube-test
- knowhate/twitter-test
这是HateBERTimbau-YouTube-Twitter的模型卡片。您可能对kNOwHATE项目的其他模型感兴趣。
HateBERTimbau-YouTube-Twitter
HateBERTimbau-YouTube-Twitter是基于Transformer架构的编码器模型,用于识别葡萄牙语社交媒体文本中的仇恨言论。该模型是HateBERTimbau的微调版本,在23,912条YouTube评论和21,546条推文(总计45,458条聚焦仇恨言论的在线消息)数据集上进行了重新训练。
模型描述
使用方式
您可以直接使用pipeline进行文本分类:
from transformers import pipeline
classifier = pipeline('text-classification', model='knowhate/HateBERTimbau-yt-tt')
classifier("人们必须明白,成为'泛性恋'不是放弃做男人,而是放弃做人😂😂")
[{'label': '仇恨言论', 'score': 0.9959186911582947}]
或通过微调用于特定任务/数据集:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import load_dataset
tokenizer = AutoTokenizer.from_pretrained("knowhate/HateBERTimbau-yt-tt")
model = AutoModelForSequenceClassification.from_pretrained("knowhate/HateBERTimbau-yt-tt")
dataset = load_dataset("knowhate/youtube-train")
def tokenize_function(examples):
return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)
training_args = TrainingArguments(output_dir="hatebertimbau", evaluation_strategy="epoch")
trainer = Trainer(
model=model,
args=training_args,
train_dataset=tokenized_datasets["train"],
eval_dataset=tokenized_datasets["validation"],
)
trainer.train()
训练
数据
使用23,912条YouTube评论和21,546条推文(总计45,458条与攻击性内容相关的在线消息)对基础模型进行微调。
训练超参数
- 批处理大小: 32
- 训练轮次: 3
- 学习率: 2e-5(使用Adam优化器)
- 最大序列长度: 350个标记
测试
数据
测试使用的数据集:knowhate/youtube-test 和 knowhate/twitter-test
结果
数据集 |
精确率 |
召回率 |
F1分数 |
knowhate/youtube-test |
0.867 |
0.892 |
0.874 |
knowhate/twitter-test |
0.397 |
0.627 |
0.486 |
BibTeX引用
正在同行评审中
@article{
}
致谢
本工作部分由欧盟委员会CERV-2021-EQUAL计划资助(资助号101049306)。
但所表达观点仅代表作者立场,不一定反映欧盟或Knowhate项目的官方意见。
欧盟委员会和Knowhate项目均不承担相关责任。