russian - inappropriate - messages开源模型 - 免费检测俄语潜在声誉损害不当内容

首页

Russian Inappropriate Messages

由 apanc 开发

用于检测俄语中不含污秽词汇但可能损害发言者声誉的不当内容

文本分类其他#俄语内容审核 #非毒性失当检测 #敏感话题识别

下载量 4,039

发布时间 : 3/2/2022

模型简介

该模型作为毒性过滤后的额外层，专门检测俄语中形式委婉但内容不当的消息。基于敏感话题分类，可识别为暴力开脱、侮辱宗教感情等潜在有害表述。

模型特点

细粒度不当性检测

专注于非毒性但可能损害声誉的表述，如为犯罪行为开脱或侮辱宗教感情等

敏感话题关联

与特定敏感话题（如宗教、犯罪等）强关联的不当内容检测

多阶段过滤

设计为毒性检测后的补充过滤层，形成多阶段内容审核流程

模型能力

俄语文本分类

不当内容识别

敏感话题关联分析

使用案例

内容审核

社交媒体过滤

在基础毒性过滤后追加不当内容检测

可减少89%的不当内容漏检（测试集准确率）

企业声誉保护

检测可能损害企业形象的员工/用户发言

识别非显性但具有潜在风险的表述

学术研究

语言行为分析

研究俄语中不当表述的语言特征

🚀 俄语不适当信息分类模型

本模型主要用于检测俄语中的不适当信息，通过对特定数据集的训练，能够在毒性和淫秽过滤之后，提供额外的不适当性过滤层，帮助识别可能损害发言者声誉的内容。

🚀 快速开始

模型的预期用途

我们在数据集中尝试收集并通过模型检测的 “不适当性” 本质，并非是毒性的替代，而是毒性的一种衍生。因此，基于我们数据集训练的模型可以作为 在毒性和淫秽过滤之后的额外不适当性过滤层。你可以使用另一个模型来检测确切的敏感话题。以下是建议的处理流程：

流程示意图

你也可以训练一个分类器来同时检测毒性和不适当性。可与有毒标签样本混合的数据可以在我们的 GitHub 或 Kaggle 上找到。

不适当性的直观理解

该模型在俄语不适当消息数据集上进行训练。一般来说，不适当的表述是指没有淫秽词汇或任何毒性意图，但仍可能损害发言者声誉的表述。通过以下表格中的示例可以有更直观的认识。你可以在这篇文章中了解更多关于不适当性的概念，该文章在 EACL - 2021 会议的波罗的 - 斯拉夫语自然语言处理研讨会上发表。请注意，这篇文章描述的是数据集的第一个版本，而模型是在扩展版本的数据集上训练的，该扩展版本数据集已在我们的 GitHub 或 Kaggle 上开源。数据集的属性与文章中描述的相同，唯一的区别是规模。

文本	是否不适当	注释	不安全话题
Ладно бы видного деятеля завалили а тут какого то ноунейм нигру преступника	是	为谋杀行为开脱	线下犯罪
Это нарушение УКРФ!	否	谴责违法行为	线下犯罪
Религия - это насилие высшего уровня. Верующего принуждают к вере еще в младенчестве.	是	冒犯信徒感情	宗教
Христиане, как вы относитесь к иноверцам, в частности к Гамалиилу и к уверовавшим в Иисуса фарисеям?	否	向信徒提出的普通问题，无意冒犯他们的感情	宗教
Хорошо что проституция запрещена	否	谴责卖淫行为	卖淫
Возьму бабки и сниму шлюх на выходных	是	宣扬卖淫行为	卖淫

模型指标

该模型仅在置信度为 100% 的样本上进行训练、验证和测试，在测试集上取得了以下指标：

	精确率	召回率	F1 分数	样本数
0	0.92	0.93	0.93	7839
1	0.80	0.76	0.78	2726
准确率			0.89	10565
宏平均	0.86	0.85	0.85	10565
加权平均	0.89	0.89	0.89	10565

📄 许可证

本项目采用知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议。

📚 引用信息

如果您觉得这个仓库有帮助，请引用我们的出版物：

@inproceedings{babakov-etal-2021-detecting,
    title = "Detecting Inappropriate Messages on Sensitive Topics that Could Harm a Company{'}s Reputation",
    author = "Babakov, Nikolay  and
      Logacheva, Varvara  and
      Kozlova, Olga  and
      Semenov, Nikita  and
      Panchenko, Alexander",
    booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Kiyv, Ukraine",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.bsnlp-1.4",
    pages = "26--36",
    abstract = "Not all topics are equally {``}flammable{''} in terms of toxicity: a calm discussion of turtles or fishing less often fuels inappropriate toxic dialogues than a discussion of politics or sexual minorities. We define a set of sensitive topics that can yield inappropriate and toxic messages and describe the methodology of collecting and labelling a dataset for appropriateness. While toxicity in user-generated data is well-studied, we aim at defining a more fine-grained notion of inappropriateness. The core of inappropriateness is that it can harm the reputation of a speaker. This is different from toxicity in two respects: (i) inappropriateness is topic-related, and (ii) inappropriate message is not toxic but still unacceptable. We collect and release two datasets for Russian: a topic-labelled dataset and an appropriateness-labelled dataset. We also release pre-trained classification models trained on this data.",
}