🚀 ShieldGemma 2模型介绍
ShieldGemma 2是基于Gemma 3的40亿参数模型,用于图像安全分类。它能检查合成和自然图像的安全性,帮助构建可靠的数据集和模型,降低有害内容风险。
🚀 快速开始
若要在Hugging Face上使用Gemma,你需要查看并同意Google的使用许可。请确保你已登录Hugging Face,然后点击下方按钮,请求将立即处理。
安装
首先,安装为Gemma 3定制版本的Transformers库:
$ pip install -U transformers
运行模型
以下是在单GPU或多GPU上运行模型的代码示例:
from transformers import AutoProcessor, ShieldGemma2ForImageClassification
from PIL import Image
import requests
import torch
model_id = "google/shieldgemma-2-4b-it"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"
image = Image.open(requests.get(url, stream=True).raw)
model = ShieldGemma2ForImageClassification.from_pretrained(model_id).eval()
processor = AutoProcessor.from_pretrained(model_id)
model_inputs = processor(images=[image], return_tensors="pt")
with torch.inference_mode():
scores = model(**model_inputs)
print(scores.probabilities)
✨ 主要特性
- 图像安全分类:ShieldGemma 2可对图像进行安全分类,检查图像是否包含有害内容,如色情、危险、暴力等。
- 多场景应用:可作为视觉语言模型的输入过滤器,或图像生成系统的输出过滤器。
- 高性能表现:在内部和外部数据集的评估中,ShieldGemma 2表现优于其他模型。
📦 安装指南
安装为Gemma 3定制版本的Transformers库:
$ pip install -U transformers
💻 使用示例
基础用法
from transformers import AutoProcessor, ShieldGemma2ForImageClassification
from PIL import Image
import requests
import torch
model_id = "google/shieldgemma-2-4b-it"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"
image = Image.open(requests.get(url, stream=True).raw)
model = ShieldGemma2ForImageClassification.from_pretrained(model_id).eval()
processor = AutoProcessor.from_pretrained(model_id)
model_inputs = processor(images=[image], return_tensors="pt")
with torch.inference_mode():
scores = model(**model_inputs)
print(scores.probabilities)
📚 详细文档
模型信息
ShieldGemma 2基于Gemma 3构建,是一个40亿(4B)参数的模型,可检查合成和自然图像的安全性,帮助你构建可靠的数据集和模型。
输入和输出
- 输入:图像 + 包含上述策略定义的提示指令
- 输出:“是”/“否”标记的概率,分数越高表示模型越确信图像违反了指定策略。“是”表示图像违反了策略,“否”表示模型未检测到违反策略的情况。
提示指令如下:
You are a policy expert trying to help determine whether a generated or real image is in violation of the safety policy
below. Your decision must very clearly follow the specific language used in the safety policy and should not include
any interpretation outside of the safety policy.
<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>
Does the image violate the above policy? Your Answer must start with with 'Yes' or 'No'.
训练数据集
训练数据集由自然图像和合成图像组成。自然图像从WebLI数据集中采样,合成图像通过内部数据生成管道生成。
数据预处理
- CSAM过滤:在数据准备过程中应用CSAM(儿童性虐待材料)过滤,确保排除非法内容。
实现信息
评估
ShieldGemma 2 4B在内部和外部数据集上进行了评估。内部数据集通过内部图像数据整理管道合成生成。
内部基准评估结果
|
色情内容 |
危险内容 |
暴力与血腥内容 |
LlavaGuard 7B |
47.6/93.1/63.0 |
67.8/47.2/55.7 |
36.8/100.0/53.8 |
GPT-4o mini |
68.3/97.7/80.3 |
84.4/99.0/91.0 |
40.2/100.0/57.3 |
Gemma-3-4B-IT |
77.7/87.9/82.5 |
75.9/94.5/84.2 |
78.2/82.2/80.1 |
shieldgemma-2-4b-it |
87.6/89.7/88.6 |
95.6/91.9/93.7 |
80.3/90.4/85.0 |
表格1:结果格式–精度/召回率/最优F1(%,越高越好)。内部基准评估结果显示,ShieldGemma 2优于外部基线模型。
伦理与安全
- 评估方法:ShieldGemma 2模型以“评分模式”运行,主要关注输出有效的图像安全标签。
- 评估结果:这些模型在伦理、安全和公平性方面进行了评估,并符合内部指南。
使用与限制
- 预期用途:ShieldGemma 2旨在作为安全内容审核器,可用于人类用户输入、模型输出或两者。
- 限制:所有大语言模型的常见限制均适用,训练和评估数据可能无法代表现实场景,模型对安全原则的描述敏感。
伦理考量与风险
开发大语言模型会引发一些伦理问题,详情请参考Gemma 3模型卡片。
优势
与同等规模的模型相比,该系列模型为负责任的AI开发提供了高性能的开源大语言模型实现。
🔧 技术细节
ShieldGemma 2基于Gemma 3的4B IT检查点进行训练,通过精心策划的训练数据集和指令调优,在图像安全分类任务中表现出色。详细技术信息可参考ShieldGemma 2技术报告。
📄 许可证
Gemma
引用
@misc{zeng2025shieldgemma2robusttractable,
title={ShieldGemma 2: Robust and Tractable Image Content Moderation},
author={Wenjun Zeng and Dana Kurniawan and Ryan Mullins and Yuchi Liu and Tamoghna Saha and Dirichi Ike-Njoku and Jindong Gu and Yiwen Song and Cai Xu and Jingjing Zhou and Aparna Joshi and Shravan Dheep and Mani Malek and Hamid Palangi and Joon Baek and Rick Pereira and Karthik Narasimhan},
year={2025},
eprint={2504.01081},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.01081},
}
相关链接