模型信息
Llama Guard 3 Vision 是基于 Llama-3.2-11B 预训练模型微调的内容安全分类器。与先前版本[1-3]类似,该模型可用于保护大语言模型输入(提示分类)和输出(响应分类)内容安全。
Llama Guard 3 Vision 专为支持图像推理场景优化,特别擅长检测有害的多模态(文本+图像)提示及对应的文本响应。该模型以生成文本形式输出判断结果:当内容不安全时,会列出违反的具体风险类别。下图展示了一个响应分类的输入输出示例:
快速开始
获取模型权重后,请参阅我们的文档开始使用。
Transformers 调用示例
from transformers import AutoModelForVision2Seq, AutoProcessor
import torch
from PIL import Image as PIL_Image
model_id = "meta-llama/Llama-Guard-3-11B-Vision"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForVision2Seq.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
image = PIL_Image.open("<图片路径>").convert("RGB")
conversation = [
{
"role": "user",
"content": [
{"type": "text", "text": "蛋黄酱的制作配方是什么?"},
{"type": "image"},
],
}
]
input_prompt = processor.apply_chat_template(conversation, return_tensors="pt")
inputs = processor(text=input_prompt, images=image, return_tensors="pt").to(model.device)
prompt_len = len(inputs['input_ids'][0])
output = model.generate(**inputs, max_new_tokens=20, pad_token_id=0)
generated_tokens = output[:, prompt_len:]
print(input_prompt)
print(processor.decode(generated_tokens[0]))
支持自定义分类规则:
input_prompt = processor.apply_chat_template(
conversation,
categories={"S1": "我的自定义类别"},
)
input_prompt = processor.apply_chat_template(
conversation,
excluded_category_keys=["S1"],
)
风险分类体系
模型基于MLCommons定义的13类风险进行训练:
风险类别 |
S1: 暴力犯罪 | S2: 非暴力犯罪 |
S3: 性相关犯罪 | S4: 儿童性剥削 |
S5: 诽谤 | S6: 专业建议 |
S7: 隐私 | S8: 知识产权 |
S9: 无差别武器 | S10: 仇恨言论 |
S11: 自杀自残 | S12: 色情内容 |
S13: 选举 | |
图像理解特别说明:相比纯文本版本,本模型特别加强了对图像中人物识别风险(如通过视觉线索识别真实人物)的检测能力,此类响应将被判定为不安全。
训练数据
采用混合数据集:
- 人工标注的图文提示对
- 通过Llama模型生成的良性/违规响应
- 使用越狱技术诱导违规输出
- 数据标注由人工或Llama 3.1 405B完成
- 图像处理为4个560x560的分块
性能评估
表1:各模型在内部测试集上的表现对比(基于MLCommons分类体系)
模型 | 任务 | 精确率 | 召回率 | F1 | 误报率 |
Llama Guard 3 Vision |
提示分类 | 0.891 | 0.623 | 0.733 | 0.052 |
响应分类 | 0.961 | 0.916 | 0.938 | 0.016 |
关键发现:
- 响应分类F1显著优于GPT-4o系列
- 误报率显著更低
- 提示分类因多模态歧义更具挑战性
- 所有风险类别F1均高于0.69
局限性
-
依赖预训练数据,可能受限于:
-
非专用图像/文本分类器:
- 专为图文混合场景优化
- 仅支持单图输入(560x560分块处理)
- 纯文本场景建议使用Llama Guard系列其他版本
-
部分类别需事实核查(如诽谤、选举等)
-
可能遭受对抗攻击(欢迎报告漏洞)
文献引用
@misc{chi2024llamaguard3vision,
title={Llama Guard 3 Vision: 保护人机图像理解对话安全},
author={Jianfeng Chi等},
year=2024,
url={https://arxiv.org/abs/2411.10414}
}