P

Polyguard Qwen Smol

由 ToxicityPrompts 开发
PolyGuard是一个用于保护LLM生成内容的多语言安全模型,支持17种语言的安全审核,当前达到最先进水平。
下载量 194
发布时间 : 2/18/2025
模型介绍
内容详情
替代品

模型简介

PolyGuard是一个基于大型语言模型的安全审核工具,专门用于检测和过滤多语言环境下的有害内容。它能够识别用户请求的危害性、AI响应的拒绝状态以及响应本身的危害性,并分类违反的具体安全政策。

模型特点

多语言支持
支持17种语言的安全审核,覆盖全球主要语种
全面安全分类
能够识别14类不安全内容,包括暴力犯罪、性犯罪、仇恨言论等
高性能
以5.5%的优势超越现有最先进的开源及商业安全分类器
大规模训练数据
基于191万条多语言样本训练,确保模型泛化能力

模型能力

多语言文本分析
有害内容检测
安全策略分类
对话安全评估

使用案例

内容审核
聊天机器人安全防护
检测用户与AI助手对话中的有害内容
有效识别并过滤暴力、仇恨言论等不安全内容
多语言社区内容审核
自动审核多语言社交平台上的用户生成内容
支持17种语言的实时有害内容检测
AI安全研究
LLM安全评估
评估不同语言模型生成内容的安全性
提供标准化的多语言安全基准测试