rubertconv_toxic_editor开源文本净化标记模型 - 支持保留、替换等四种处理类型

首页

Rubertconv Toxic Editor

由 IlyaGusev 开发

基于rubert-base-cased-conversational的文本净化标记模型，支持四种处理类型：保留、替换、删除和插入标记。

文本分类

Transformers

其他开源协议:Apache-2.0 #俄语文本净化 #毒性标记分类 #掩码替换处理

下载量 79

发布时间 : 3/2/2022

模型简介

该模型用于文本净化处理，能够识别并处理有毒或不当内容，支持四种不同的处理方式，需配合掩码填充器使用。

模型特点

四种处理类型

支持保留、替换、删除和插入四种处理方式，灵活应对不同净化需求。

掩码填充支持

需配合掩码填充器使用，可实现对有毒内容的智能替换。

俄语优化

基于俄语对话优化的rubert模型，特别适合俄语文本处理。

模型能力

文本毒性标记

文本净化处理

俄语文本分析

使用案例

内容审核

社交媒体评论净化

自动识别并处理社交媒体中的不当评论

文本预处理

对话系统输入净化

在对话系统处理前净化用户输入

🚀 RuBERTConv毒性编辑器

本项目基于rubert-base-cased-conversational构建了用于文本去毒的标签模型。它能对文本进行分类标记，配合掩码填充器使用，可有效实现文本的去毒处理。

🚀 快速开始

代码使用示例

你可以通过以下代码在Colab中使用该模型，点击此处打开Colab示例。

import torch
from transformers import AutoTokenizer, pipeline

tagger_model_name = "IlyaGusev/rubertconv_toxic_editor"

device = "cuda" if torch.cuda.is_available() else "cpu"
device_num = 0 if device == "cuda" else -1
tagger_pipe = pipeline(
    "token-classification",
    model=tagger_model_name,
    tokenizer=tagger_model_name,
    framework="pt",
    device=device_num,
    aggregation_strategy="max"
)

text = "..."
tagger_predictions = tagger_pipe([text], batch_size=1)
sample_predictions = tagger_predictions[0]
print(sample_predictions)

✨ 主要特性

四种分类标签：模型提供4种可能的分类，分别为“Equal（保留标记）”、“Replace（用掩码替换标记）”、“Delete（移除标记）”和“Insert（在标记前插入掩码）”，能灵活处理不同的文本去毒需求。
协同使用：可与掩码填充器配合使用，实现更完善的文本去毒流程。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库（如torch、transformers）的官方安装说明进行安装。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, pipeline

tagger_model_name = "IlyaGusev/rubertconv_toxic_editor"

device = "cuda" if torch.cuda.is_available() else "cpu"
device_num = 0 if device == "cuda" else -1
tagger_pipe = pipeline(
    "token-classification",
    model=tagger_model_name,
    tokenizer=tagger_model_name,
    framework="pt",
    device=device_num,
    aggregation_strategy="max"
)

text = "..."
tagger_predictions = tagger_pipe([text], batch_size=1)
sample_predictions = tagger_predictions[0]
print(sample_predictions)