L

Llamaguard 7b

由 llamas-community 开发
基于70亿参数Llama 2的安全防护模型,用于对LLM输入输出内容进行安全分类
下载量 151
发布时间 : 12/7/2023
模型介绍
内容详情
替代品

模型简介

Llama-Guard是一个基于Llama 2的安全防护模型,可用于对LLM输入(提示分类)和LLM响应(响应分类)中的内容进行安全评估。它通过生成文本来判断内容是否安全,并在违反政策时列出具体违规子类别。

模型特点

双重内容审核
可同时对LLM输入(提示)和输出(响应)进行安全评估
细粒度分类
不仅判断安全/不安全,还能识别具体违规子类别(如暴力、性相关内容等)
概率输出
提供概率分数而非简单二元判定,允许用户自定义安全阈值

模型能力

内容安全评估
违规内容检测
多类别风险识别

使用案例

LLM安全防护
提示词审核
在LLM处理用户输入前进行安全筛查
有效识别潜在有害提示
响应内容审核
对LLM生成内容进行安全评估后再返回给用户
防止输出有害内容
内容审核系统
社区内容审核
集成到社交媒体平台的内容审核流程中
自动识别并过滤违规内容