L

Llama Guard 3 8B

由 meta-llama 开发
Llama Guard 3是基于Llama-3.1-8B预训练模型微调的内容安全分类器,用于LLM输入和响应的内容审核。
下载量 327.59k
发布时间 : 7/22/2024
模型介绍
内容详情
替代品

模型简介

Llama Guard 3是一个内容安全分类器,可用于大型语言模型(LLM)的输入(提示分类)和响应(响应分类)的内容审核。作为LLM运行,它会生成文本输出指示内容安全性,若不安全则列出违反的类别。

模型特点

多语言支持
支持8种语言的提示和响应分类,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语
14类危害检测
基于MLCommons分类法的13类危害及代码解释器滥用共14类进行训练,覆盖广泛的安全风险
低误报率
相比前代模型和GPT-4,在保持高F1分数的同时显著降低误报率
工具使用场景支持
新增对搜索工具和代码解释器等工具使用场景的安全检测能力

模型能力

提示分类
响应分类
多语言内容审核
安全风险检测
代码解释器滥用检测

使用案例

内容审核
LLM输入过滤
检测用户输入中可能包含的有害或违规内容
有效识别暴力、仇恨言论等14类危害内容
LLM输出过滤
检测模型响应中可能包含的有害或违规内容
防止模型生成不当响应,降低法律和声誉风险
安全合规
多语言平台审核
为多语言平台提供统一的内容安全解决方案
支持8种语言的违规内容检测
工具使用安全
检测代码解释器等工具使用中的潜在滥用行为
识别拒绝服务攻击、权限提升等恶意用途