sloberta-frenk-hate开源模型 - 免费部署，精准检测斯洛文尼亚语涉LGBT及移民仇恨言论

首页

Sloberta Frenk Hate

由 classla 开发

基于SloBERTa模型微调的斯洛文尼亚语仇恨言论分类器，专门针对LGBT群体和移民的冒犯性语言检测

文本分类

Transformers

其他#斯洛文尼亚语仇恨言论检测 #二元文本分类 #FRENK数据集微调

下载量 17

发布时间 : 3/2/2022

模型简介

该模型是基于EMBEDDIA/sloberta模型在FRENK数据集斯洛文尼亚语部分微调的文本分类模型，用于识别针对特定群体的仇恨言论和冒犯性语言。

模型特点

针对特定群体优化

专门针对LGBT群体和移民相关的仇恨言论进行优化

二元分类

将原始数据集重新标记为简单的二元分类（冒犯性/可接受）

性能优越

在斯洛文尼亚语模型中表现出优于同类模型的性能

模型能力

文本分类

仇恨言论检测

冒犯性语言识别

使用案例

内容审核

社交媒体内容过滤

自动识别并过滤社交媒体上针对LGBT群体和移民的仇恨言论

准确率77.85%，F1分数77.64%

学术研究

语言行为研究

用于研究斯洛文尼亚语中仇恨言论的语言特征和模式

🚀 斯洛文尼亚语仇恨言论文本分类模型

本项目基于EMBEDDIA/sloberta构建了一个文本分类模型，该模型在包含LGBT和移民仇恨言论的FRENK数据集上进行了微调。仅使用了数据集中的斯洛文尼亚语子集进行微调，并且该数据集已重新标记用于二分类（冒犯性或可接受）。

🚀 快速开始

本模型基于EMBEDDIA/sloberta，并在特定数据集上进行了微调。你可以参考以下使用示例快速上手。

✨ 主要特性

基于EMBEDDIA/sloberta模型，在特定仇恨言论数据集上微调。
仅使用斯洛文尼亚语子集数据进行微调，适用于斯洛文尼亚语的仇恨言论分类。
进行了二分类任务，可判断文本是否具有冒犯性。

📦 安装指南

文档未提及安装步骤，可参考simpletransformers库的官方安装说明。

💻 使用示例

基础用法

from simpletransformers.classification import ClassificationModel
model_args = {
        "num_train_epochs": 6,
        "learning_rate": 3e-6,
        "train_batch_size": 69}

model = ClassificationModel(
    "camembert", "5roop/sloberta-frenk-hate", use_cuda=True,
    args=model_args
    
)

predictions, logit_output = model.predict(["Silva, ti si grda in neprijazna", "Naša hiša ima dimnik"])
predictions
### Output:
### array([1, 0])

📚 详细文档

微调超参数

使用simpletransformers进行微调。事先进行了简要的超参数优化，推测的最优超参数如下：

model_args = {
        "num_train_epochs": 14,
        "learning_rate": 1e-5,
        "train_batch_size": 21,
        }

性能表现

为了进行比较，使用相同的管道对另外两个Transformer模型和fasttext进行了运行。记录了6次微调会话中每个模型的准确率和宏F1分数，并进行了事后分析。

模型	平均准确率	平均宏F1分数
sloberta-frenk-hate	0.7785	0.7764
EMBEDDIA/crosloengual-bert	0.7616	0.7585
xlm-roberta-base	0.686	0.6827
fasttext	0.709	0.701

根据记录的准确率和宏F1分数，还计算了p值：

与crosloengual-bert的比较：

测试方法	准确率p值	宏F1分数p值
Wilcoxon	0.00781	0.00781
Mann Whithney U测试	0.00163	0.00108
学生t检验	0.000101	3.95e-05

与xlm-roberta-base的比较：

测试方法	准确率p值	宏F1分数p值
Wilcoxon	0.00781	0.00781
Mann Whithney U测试	0.00108	0.00108
学生t检验	9.46e-11	6.94e-11

🔧 技术细节

本模型基于EMBEDDIA/sloberta，使用simpletransformers库进行微调。在微调前进行了超参数优化，以提高模型性能。通过在特定的仇恨言论数据集上进行训练，使得模型能够对斯洛文尼亚语的仇恨言论进行分类。

📄 许可证

本项目采用CC BY-SA 4.0许可证。

📖 引用

如果你使用了该模型，请引用以下论文和数据集：

模型引用论文

@article{DBLP:journals/corr/abs-1907-11692,
  author    = {Yinhan Liu and
               Myle Ott and
               Naman Goyal and
               Jingfei Du and
               Mandar Joshi and
               Danqi Chen and
               Omer Levy and
               Mike Lewis and
               Luke Zettlemoyer and
               Veselin Stoyanov},
  title     = {RoBERTa: {A} Robustly Optimized {BERT} Pretraining Approach},
  journal   = {CoRR},
  volume    = {abs/1907.11692},
  year      = {2019},
  url       = {http://arxiv.org/abs/1907.11692},
  archivePrefix = {arXiv},
  eprint    = {1907.11692},
  timestamp = {Thu, 01 Aug 2019 08:59:33 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1907-11692.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

微调数据集引用

@misc{ljubešić2019frenk,
      title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English}, 
      author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec},
      year={2019},
      eprint={1906.02045},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/1906.02045}
}