DuoGuard-0.5B开源安全内容审核分类器 - 支持多语言跨12子类审核

首页

Duoguard 0.5B

由 DuoGuard 开发

DuoGuard-0.5B 是一个多语言、仅解码器的基于大语言模型的分类器，专门设计用于跨12个不同子类别的安全内容审核。

大型语言模型

Transformers

开源协议:Apache-2.0 #多语言内容审核 #细粒度安全分类 #多标签概率输出

下载量 235

发布时间 : 2/7/2025

模型简介

该模型用于对输入文本序列的安全性进行分类，支持多语言内容审核，能够检测12个不同子类别的潜在不安全或不允许内容。

模型特点

多语言支持

专门微调用于英语、法语、德语和西班牙语的安全内容审核，同时保留基础模型对29种语言的支持能力。

细粒度分类

能够检测12个不同子类别的潜在不安全内容，提供多标签概率分布。

二元审核

可以通过取12个子类别概率的最大值与阈值比较，生成简化的'安全'/'不安全'标签。

模型能力

多语言文本分类

内容安全审核

多标签分类

二元分类

使用案例

内容审核

社交媒体内容审核

自动检测社交媒体平台上的不安全或不允许内容

能够识别12个不同子类别的潜在风险内容

聊天机器人安全防护

为聊天机器人提供安全防护，防止生成不安全内容

实时检测并过滤不安全响应

🚀 DuoGuard-0.5B 模型

DuoGuard-0.5B 是一个基于大语言模型的分类器，专门用于对输入文本序列的安全性进行分类，可实现细粒度的潜在不安全或违规内容检测。

🔍 模型信息

属性	详情
模型类型	基于多语言、仅解码器的大语言模型的分类器
基础模型	Qwen/Qwen2.5 - 0.5B
训练数据	未提及
许可证	Apache - 2.0

🚀 快速开始

模型概述

本模型的主要目标是对输入文本序列的安全性进行分类。DuoGuard-0.5B 是一个多语言、仅解码器的基于大语言模型的分类器，专为跨 12 个不同子类别进行安全内容审核而设计。每次前向传播会产生一个 12 维的对数几率向量，每个维度对应一个特定的内容风险领域，如暴力犯罪、仇恨言论或色情内容。通过对这些对数几率应用 sigmoid 函数，用户可以获得一个多标签概率分布，从而实现对潜在不安全或违规内容的细粒度检测。

对于简化的二元审核任务，该模型可以通过取 12 个子类别概率的最大值并将其与给定阈值（例如 0.5）进行比较，来生成单个“安全”/“不安全”标签。如果所有类别中的最大概率高于阈值，则内容被视为“不安全”；否则，视为“安全”。

DuoGuard-0.5B 基于 Qwen 2.5 (0.5B) 构建，这是一个支持 29 种语言（包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语和阿拉伯语）的多语言大语言模型。DuoGuard-0.5B 主要针对英语、法语、德语和西班牙语进行了安全内容审核的专门微调，同时仍保留了从 Qwen 2.5 基础模型继承的更广泛的语言覆盖范围。该模型的权重是开放的。

该模型在论文 DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails 中有所介绍。代码请见：https://github.com/yihedeng9/DuoGuard。

💻 使用示例

基础用法

以下是一个快速代码片段，展示了如何在应用程序中加载和使用该模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# 1. Initialize the tokenizer
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")
tokenizer.pad_token = tokenizer.eos_token

# 2. Load the DuoGuard-0.5B model
model = AutoModelForSequenceClassification.from_pretrained(
    "DuoGuard/DuoGuard-0.5B", 
    torch_dtype=torch.bfloat16
).to('cuda:0')

# 3. Define a sample prompt to test
prompt = "How to kill a python process?"

# 4. Tokenize the prompt
inputs = tokenizer(
    prompt,
    return_tensors="pt", 
    truncation=True, 
    max_length=512  # adjust as needed
).to('cuda:0')

# 5. Run the model (inference)
with torch.no_grad():
    outputs = model(**inputs)
    # DuoGuard outputs a 12-dimensional vector (one probability per subcategory).
    logits = outputs.logits  # shape: (batch_size, 12)
    probabilities = torch.sigmoid(logits)  # element-wise sigmoid

# 6. Multi-label predictions (one for each category)
threshold = 0.5
category_names = [
    "Violent crimes",
    "Non-violent crimes",
    "Sex-related crimes",
    "Child sexual exploitation",
    "Specialized advice",
    "Privacy",
    "Intellectual property",
    "Indiscriminate weapons",
    "Hate",
    "Suicide and self-harm",
    "Sexual content",
    "Jailbreak prompts",
]

# Extract probabilities for the single prompt (batch_size = 1)
prob_vector = probabilities[0].tolist()  # shape: (12,)

predicted_labels = []
for cat_name, prob in zip(category_names, prob_vector):
    label = 1 if prob > threshold else 0
    predicted_labels.append(label)

# 7. Overall binary classification: "safe" vs. "unsafe"
#    We consider the prompt "unsafe" if ANY category is above the threshold.
max_prob = max(prob_vector)
overall_label = 1 if max_prob > threshold else 0  # 1 => unsafe, 0 => safe

# 8. Print results
print(f"Prompt: {prompt}\n")
print(f"Multi-label Probabilities (threshold={threshold}):")
for cat_name, prob, label in zip(category_names, prob_vector, predicted_labels):
    print(f"  - {cat_name}: {prob:.3f}")

print(f"\nMaximum probability across all categories: {max_prob:.3f}")
print(f"Overall Prompt Classification => {'UNSAFE' if overall_label == 1 else 'SAFE'}")

📄 引用

@misc{deng2025duoguardtwoplayerrldrivenframework,
      title={DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails}, 
      author={Yihe Deng and Yu Yang and Junkai Zhang and Wei Wang and Bo Li},
      year={2025},
      eprint={2502.05163},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2502.05163}, 
}