🚀 RuBERTConv毒性编辑器
本项目基于rubert-base-cased-conversational构建了用于文本去毒的标签模型。它能对文本进行分类标记,配合掩码填充器使用,可有效实现文本的去毒处理。
🚀 快速开始
代码使用示例
你可以通过以下代码在Colab中使用该模型,点击此处打开Colab示例。
import torch
from transformers import AutoTokenizer, pipeline
tagger_model_name = "IlyaGusev/rubertconv_toxic_editor"
device = "cuda" if torch.cuda.is_available() else "cpu"
device_num = 0 if device == "cuda" else -1
tagger_pipe = pipeline(
"token-classification",
model=tagger_model_name,
tokenizer=tagger_model_name,
framework="pt",
device=device_num,
aggregation_strategy="max"
)
text = "..."
tagger_predictions = tagger_pipe([text], batch_size=1)
sample_predictions = tagger_predictions[0]
print(sample_predictions)
✨ 主要特性
- 四种分类标签:模型提供4种可能的分类,分别为“Equal(保留标记)”、“Replace(用掩码替换标记)”、“Delete(移除标记)”和“Insert(在标记前插入掩码)”,能灵活处理不同的文本去毒需求。
- 协同使用:可与掩码填充器配合使用,实现更完善的文本去毒流程。
📦 安装指南
文档未提及具体安装步骤,可参考相关依赖库(如torch
、transformers
)的官方安装说明进行安装。
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, pipeline
tagger_model_name = "IlyaGusev/rubertconv_toxic_editor"
device = "cuda" if torch.cuda.is_available() else "cpu"
device_num = 0 if device == "cuda" else -1
tagger_pipe = pipeline(
"token-classification",
model=tagger_model_name,
tokenizer=tagger_model_name,
framework="pt",
device=device_num,
aggregation_strategy="max"
)
text = "..."
tagger_predictions = tagger_pipe([text], batch_size=1)
sample_predictions = tagger_predictions[0]
print(sample_predictions)
高级用法
文档未提供高级用法示例,你可以根据实际需求对代码进行扩展,例如调整pipeline
的参数或结合其他工具进行更复杂的文本处理。
📚 详细文档
模型描述
基于rubert-base-cased-conversational的去毒标签模型,有4种可能的分类,需与掩码填充器配合使用。
预期用途和限制
可用于文本去毒处理,但文档未提及具体限制信息。
训练数据
训练过程
评估结果
待公布。
🔧 技术细节
模型基于预训练的rubert-base-cased-conversational进行微调,通过对文本进行分类标记来实现去毒功能。具体的技术实现细节可参考相关代码文件。
📄 许可证
本项目采用Apache 2.0许可证。
属性 |
详情 |
模型类型 |
基于rubert-base-cased-conversational的去毒标签模型 |
训练数据 |
russe_detox_2022数据集 |