许可证: MIT
语言: 西班牙语
标签:
- "西班牙语"
评估指标:
- ROC-AUC
示例输入:
- 文本: "你可真是个十足的蠢货!"
- 文本: "跳桥去吧!"
- 文本: "癞蛤蟆,恶心的垃圾"
- 文本: "再为Wilson点支蜡烛,希望出现四只小狗"
- 文本: "我们将以叛国罪开除你"
- 文本: "这该死的热天气"
- 文本: "老不死的,你什么时候才咽气"
- 文本: "下周杂志封面将是Selena Gómez的秘密"
- 文本: "看着自己每天600条推文全耗在Julio Iglesias的梗图上。"
哥伦比亚西班牙语网络暴力分类器
该模型是基于PlanTL-GOB-ES/roberta-base-bne微调的版本,训练数据来自手动收集的推特社交网络帖子,用于检测哥伦比亚西班牙语中的网络暴力行为。
训练与评估数据
使用的数据集包含3570条推文,这些推文被人工标注为"网络暴力"或"非网络暴力"。该数据集的显著特点是:对于特定词汇,既包含标注为网络暴力的推文实例,也包含相同词汇但标注为非网络暴力的实例。这是因为相同词汇在不同语境下可能导致完全不同的分类结果。
例如,"非网络暴力"类别的推文主要包含在特定语境下不构成网络暴力的粗俗用语,如"兄弟,我忘了看比赛"。此外,该类别还少量收录了来自哥伦比亚地区热门话题的推文。推特趋势反映了特定时间段某地域最热门的话题讨论,本质上捕捉了当地人在线分享的内容。
当无法获取包含特定攻击性词汇(如"希望你被强奸")的非网络暴力推文时,便会采用趋势推文进行补充。相反,标注为网络暴力的推文未必都包含强烈粗俗用语,例如"我会找到你的"。
数据集中网络暴力与非网络暴力推文的数量分布均衡。构建数据集使用的关键词和短语选自论文《网络暴力细粒度分析指南》定义的四大类别:侮辱、威胁、诅咒和诽谤。侮辱类涉及使用攻击性词汇意图伤害他人,威胁类旨在损害受害者人身安全,诅咒类包含希望他人遭遇不幸的表述,诽谤类则试图破坏受害者声誉。这些类别全面覆盖了网络暴力的主要表现形式。所有推文均由项目关联的职业治疗师完成标注。
训练流程
训练超参数
训练采用以下超参数:
- 学习率: 2e-05
- 训练批大小: 8
- 评估批大小: 8
- 随机种子: 42
- 权重衰减: 0.01
- 预热步数: 500
- 训练轮次: 2
训练结果
轮次 |
ROC-AUC |
验证损失 |
训练损失 |
1.0 |
0.8756 |
0.4375 |
--- |
2.0 |
0.9022 |
0.5060 |
0.4945 |
模型实战 🚀
使用pipelines快速调用:
!pip install -q transformers
from transformers import pipeline
model_path = "FelipeGuerra/colombian-spanish-cyberbullying-classifier"
bullying_analysis = pipeline("text-classification", model=model_path, tokenizer=model_path)
bullying_analysis(
"就像我妈妈说的:要下大雨了"
)
[{'label': '非网络暴力', 'score': 0.977687656879425}]
bullying_analysis(
"这贱人迟早要付出代价"
)
[{'label': '网络暴力', 'score': 0.9404164552688599}]
框架版本
- Transformers 4.34.0
- Pytorch 2.0.1+cu118
- Pandas 1.5.3
- scikit-learn 1.2.2
开发者: Felipe Guerra Sáenz | 领英