Hate-ita开源仇恨言论分类模型 - 精准识别意大利社交媒体侮辱冒犯语言

首页

Hate Ita

由 MilaNLProc 开发

HATE-ITA是一个针对意大利社交媒体文本的二元仇恨言论分类模型，基于XLM-T模型微调，专注于识别侮辱性、仇恨和冒犯性语言。

文本分类

Transformers

其他开源协议:Gpl-3.0 #意大利语仇恨言论检测 #多语言模型微调 #社交媒体文本分类

下载量 50

发布时间 : 6/8/2022

模型简介

该模型用于检测意大利语文本中的仇恨言论，适用于社交媒体内容审核等场景，能有效识别侮辱性、仇恨和冒犯性语言。

模型特点

多语言优势

基于大量英语数据和现有意大利语数据集训练，表现优于单语模型。

语言适应性

能较好适应意大利语特有的侮辱词汇和表达方式。

高效检测

在测试集上F1得分达到0.83，具有较高的检测准确性。

模型能力

意大利语文本分类

仇恨言论检测

侮辱性语言识别

冒犯性内容识别

使用案例

内容审核

社交媒体内容过滤

自动检测并过滤社交媒体上的仇恨言论和侮辱性内容。

提高平台内容安全性，减少有害信息传播。

在线社区管理

辅助管理员识别和处理社区中的冒犯性言论。

维护社区和谐，减少用户冲突。

🚀 HATE - ITA Base

HATE - ITA是一个用于意大利社交媒体文本的二元仇恨言论分类模型，能够有效识别相关文本中的仇恨言论。

🚀 快速开始

模型使用示例

from transformers import pipeline
classifier = pipeline("text-classification",model='MilaNLProc/hate-ita',top_k=2)
prediction = classifier("ti odio")
print(prediction)

✨ 主要特性

跨语言训练：HATE - ITA是一组多语言模型，在大量英语数据和可用的意大利语数据集上进行训练，比单语言模型表现更好，并且能很好地适应特定语言的侮辱性词汇。
有效检测：能够对意大利社交媒体文本进行二元仇恨言论分类，助力及时应对网络仇恨言论这一危险现象。

📚 详细文档

摘要

网络仇恨言论是一种危险的现象，能够（也应该）得到及时妥善的应对。虽然自然语言处理已成功用于此目的，但许多研究工作都针对英语展开。这种选择严重限制了非英语语言的分类能力。在本文中，我们测试了几种用于识别意大利语文本中仇恨言论的学习框架。我们发布了HATE - ITA，这是一组在大量英语数据和可用的意大利语数据集上训练的多语言模型。HATE - ITA的表现优于单语言模型，并且似乎也能很好地适应特定语言的侮辱性词汇。我们相信我们的研究结果将鼓励其他中低资源社区的研究，并为意大利社区提供有价值的基准测试工具。

模型

该模型是XLM - T模型的微调版本。

模型	下载链接
`hate - ita`	[链接](https://huggingface.co/MilaNLProc/hate - ita)
`hate - ita - xlm - r - base`	[链接](https://huggingface.co/MilaNLProc/hate - ita - xlm - r - base)
`hate - ita - xlm - r - large`	[链接](https://huggingface.co/MilaNLProc/hate - ita - xlm - r - large)

结果

该模型在测试集上的F1值为0.83。

引用

如果您在项目中使用此模型，请使用以下BibTeX条目：

@inproceedings{nozza - etal - 2022 - hate - ita,
    title = {{HATE - ITA}: Hate Speech Detection in Italian Social Media Text},
    author = "Nozza, Debora and Bianchi, Federico and Attanasio, Giuseppe",
    booktitle = "Proceedings of the 6th Workshop on Online Abuse and Harms",
    year = "2022",
    publisher = "Association for Computational Linguistics"
}

伦理声明

虽然这项工作的结果很有前景，但不应将其解释为对意大利语仇恨言论检测性能的最终评估。我们不确定我们的模型是否能在不同的目标和类别中保持稳定和公平的精度。HATE - ITA可能会忽略一些敏感细节，从业者应谨慎对待。

📄 许可证

[GNU GPLv3](https://choosealicense.com/licenses/gpl - 3.0/)

作者信息

Debora Nozza • Federico Bianchi • Giuseppe Attanasio

模型示例

![模型示例](https://raw.githubusercontent.com/MilaNLProc/hate - ita/main/hateita.png?token=GHSAT0AAAAAABTEBAJ4PNDWAMU3KKIGUOCSYWG4IBA)

测试示例

示例标题	测试文本
Hate Speech Classification 1	"Ci sono dei bellissimi capibara!"
Hate Speech Classification 2	"Sei una testa di cazzo!!"
Hate Speech Classification 3	"Ti odio!"