🚀 HATE - ITA Base
HATE - ITA是一个用于意大利社交媒体文本的二元仇恨言论分类模型,能够有效识别相关文本中的仇恨言论。
🚀 快速开始
模型使用示例
from transformers import pipeline
classifier = pipeline("text-classification",model='MilaNLProc/hate-ita',top_k=2)
prediction = classifier("ti odio")
print(prediction)
✨ 主要特性
- 跨语言训练:HATE - ITA是一组多语言模型,在大量英语数据和可用的意大利语数据集上进行训练,比单语言模型表现更好,并且能很好地适应特定语言的侮辱性词汇。
- 有效检测:能够对意大利社交媒体文本进行二元仇恨言论分类,助力及时应对网络仇恨言论这一危险现象。
📚 详细文档
摘要
网络仇恨言论是一种危险的现象,能够(也应该)得到及时妥善的应对。虽然自然语言处理已成功用于此目的,但许多研究工作都针对英语展开。这种选择严重限制了非英语语言的分类能力。在本文中,我们测试了几种用于识别意大利语文本中仇恨言论的学习框架。我们发布了HATE - ITA,这是一组在大量英语数据和可用的意大利语数据集上训练的多语言模型。HATE - ITA的表现优于单语言模型,并且似乎也能很好地适应特定语言的侮辱性词汇。我们相信我们的研究结果将鼓励其他中低资源社区的研究,并为意大利社区提供有价值的基准测试工具。
模型
该模型是XLM - T模型的微调版本。
模型 |
下载链接 |
hate - ita |
[链接](https://huggingface.co/MilaNLProc/hate - ita) |
hate - ita - xlm - r - base |
[链接](https://huggingface.co/MilaNLProc/hate - ita - xlm - r - base) |
hate - ita - xlm - r - large |
[链接](https://huggingface.co/MilaNLProc/hate - ita - xlm - r - large) |
结果
该模型在测试集上的F1值为0.83。
引用
如果您在项目中使用此模型,请使用以下BibTeX条目:
@inproceedings{nozza - etal - 2022 - hate - ita,
title = {{HATE - ITA}: Hate Speech Detection in Italian Social Media Text},
author = "Nozza, Debora and Bianchi, Federico and Attanasio, Giuseppe",
booktitle = "Proceedings of the 6th Workshop on Online Abuse and Harms",
year = "2022",
publisher = "Association for Computational Linguistics"
}
伦理声明
虽然这项工作的结果很有前景,但不应将其解释为对意大利语仇恨言论检测性能的最终评估。我们不确定我们的模型是否能在不同的目标和类别中保持稳定和公平的精度。HATE - ITA可能会忽略一些敏感细节,从业者应谨慎对待。
📄 许可证
[GNU GPLv3](https://choosealicense.com/licenses/gpl - 3.0/)
作者信息
Debora Nozza •
Federico Bianchi •
Giuseppe Attanasio
模型示例

测试示例
示例标题 |
测试文本 |
Hate Speech Classification 1 |
"Ci sono dei bellissimi capibara!" |
Hate Speech Classification 2 |
"Sei una testa di cazzo!!" |
Hate Speech Classification 3 |
"Ti odio!" |