kcElectra_base_Bad_Sentence_Classifier开源模型 - 免费部署，精准识别韩语敏感评论和聊天内容

首页

Kcelectra Base Bad Sentence Classifier

由 JminJ 开发

基于ELECTRA架构的韩语文本分类模型，用于判断评论和聊天内容是否包含敏感信息

文本分类

Transformers

#韩语敏感内容检测 #ELECTRA微调 #社交媒体内容审核

下载量 46

发布时间 : 4/7/2022

模型简介

该模型通过微调ELECTRA模型实现，专门用于检测韩语文本中的不良内容（如敏感信息、仇恨言论等）。模型基于公开数据集训练，但训练数据因版权问题未公开。

模型特点

多数据集融合训练

整合Korean Unsmile和Korean HateSpeech两个数据集，并重新标记为二分类形式

特定敏感词处理

对包含特定韩语敏感词（如'~노'、'좆'等）的语句进行特殊标记处理

多模型对比

使用三种不同的韩语ELECTRA模型进行训练和性能比较

模型能力

韩语文本分类

敏感内容检测

仇恨言论识别

使用案例

内容审核

社交媒体评论过滤

自动识别并过滤社交媒体上的不良评论

准确率达88.49%（基于kcElectra_base模型）

聊天内容监控

实时监控聊天应用中的不当言论

🚀 不良文本分类器

本项目公开了一个用于判别互联网上各类评论、聊天内容是否包含敏感信息的模型。该模型使用公开数据集，对标签进行修改并整合数据后进行了微调训练。需要说明的是，此模型并非能对所有语句都做出准确判断，还请您予以理解。

注意事项：
由于公开数据的版权问题，模型训练中使用的经过处理的数据无法公开。
此外，该模型的观点与本人观点无关。

🚀 快速开始

模型使用方法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')
tokenizer = AutoTokenizer.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')

✨ 主要特性

本模型能够对互联网上的评论、聊天内容进行敏感信息判别，通过对公开数据集的处理和微调训练，提升了模型的性能。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')
tokenizer = AutoTokenizer.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')

📚 详细文档

数据集

数据标签

0 : 不良语句
1 : 正常语句

使用的数据集

数据集处理方法

将原本并非二分类的两个数据集重新进行二分类标注，然后从Korean HateSpeech Dataset中筛选出标签为1（正常语句）的数据，并与处理后的Korean Unsmile Dataset合并。

对Korean Unsmile Dataset中标记为“clean”的数据进行了部分修改：

包含“~노”且同时包含“이기”“노무”的语句，将标签修改为0（不良语句）。
包含“좆”“봊”等具有性暗示意味的语句，将标签修改为0（不良语句）。

模型训练

使用huggingface transformers的ElectraForSequenceClassification进行微调训练。
使用了三种公开的韩语Electra模型分别进行训练。

使用的模型

模型验证准确率

模型	准确率
kcElectra_base_fp16_wd_custom_dataset	0.8849
tunibElectra_base_fp16_wd_custom_dataset	0.8726
koElectra_base_fp16_wd_custom_dataset	0.8434

注意：
所有模型均在相同的种子、学习率（3e-06）、权重衰减系数（0.001）和批量大小（128）的条件下进行训练。

🔧 技术细节

本项目使用huggingface transformers库中的ElectraForSequenceClassification进行微调训练，通过对公开数据集的处理和整合，提升了模型的性能。同时，使用了三种不同的韩语Electra模型进行训练，并在相同的训练参数下进行比较。

📄 许可证

文档未提及许可证信息，暂不展示。

📞 联系方式

jminju254@gmail.com

🌐 GitHub链接

https://github.com/JminJ/Bad_text_classifier

📚 参考文献

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文