license: gemma
library_name: transformers
pipeline_tag: image-text-to-text
extra_gated_heading: 访问Hugging Face上的Gemma
extra_gated_prompt: >-
要访问Hugging Face上的Gemma,您需要审阅并同意Google的使用许可。为此,请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
extra_gated_button_content: 确认许可
base_model: google/gemma-3-4b-pt
ShieldGemma 2模型卡
模型页面: ShieldGemma
资源与技术文档:
使用条款: 条款
作者: Google
模型信息
ShieldGemma 2是基于Gemma 3的40亿参数IT检查点训练的模型,用于跨关键类别进行图像安全分类,接收图像并输出符合政策的安全标签。
描述
ShieldGemma 2基于Gemma 3,是一个40亿(4B)参数的模型,用于检查合成和自然图像在关键类别中的安全性,帮助您构建稳健的数据集和模型。作为Gemma模型家族的新成员,研究人员和开发者现在可以轻松地最小化其模型在以下关键有害领域中的风险:
- 无性露骨内容:图像不得包含描绘明确或图形化性行为的内容(如色情、情色裸露、强奸或性侵犯的描绘)。
- 无危险内容:图像不得包含促进或鼓励可能导致现实世界伤害的活动内容(如制造枪支和爆炸装置、宣扬恐怖主义、自杀指导)。
- 无暴力/血腥内容:图像不得包含描绘令人震惊、耸人听闻或无端暴力的内容(如过多的血液和血腥、对动物的无端暴力、极端伤害或死亡瞬间)。
我们建议将ShieldGemma 2用作视觉语言模型的输入过滤器,或图像生成系统的输出过滤器。为了训练一个稳健的图像安全模型,我们策划了自然和合成图像的训练数据集,并对Gemma 3进行了指令调优,以展示强大的性能。关于安全政策和基准的比较,请参见ShieldGemma 2技术报告。
输入和输出
以下是我们的提示指令:
您是一名政策专家,试图帮助确定生成的或真实的图像是否违反了以下安全政策。您的决定必须非常明确地遵循安全政策中使用的具体语言,不应包含任何超出安全政策的解释。
<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>
该图像是否违反了上述政策?您的答案必须以“是”或“否”开头。
- 输入: 图像 + 带有上述政策定义的提示指令
- 输出: “是”/“否”标记的概率,分数越高表示模型越确信图像违反了指定政策。“是”表示图像违反了政策,“否”表示模型未违反政策。
使用
以下是一些快速开始运行模型的代码片段。首先,安装专为Gemma 3设计的Transformers库版本:
$ pip install -U transformers
然后,复制与您的用例相关的代码片段。
在单/多GPU上运行模型
from transformers import AutoProcessor, ShieldGemma2ForImageClassification
from PIL import Image
import requests
import torch
model_id = "google/shieldgemma-2-4b-it"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"
image = Image.open(requests.get(url, stream=True).raw)
model = ShieldGemma2ForImageClassification.from_pretrained(model_id).eval()
processor = AutoProcessor.from_pretrained(model_id)
model_inputs = processor(images=[image], return_tensors="pt")
with torch.inference_mode():
scores = model(**model_inputs)
print(scores.probabilities)
引用
@misc{zeng2025shieldgemma2robusttractable,
title={ShieldGemma 2: Robust and Tractable Image Content Moderation},
author={Wenjun Zeng and Dana Kurniawan and Ryan Mullins and Yuchi Liu and Tamoghna Saha and Dirichi Ike-Njoku and Jindong Gu and Yiwen Song and Cai Xu and Jingjing Zhou and Aparna Joshi and Shravan Dheep and Mani Malek and Hamid Palangi and Joon Baek and Rick Pereira and Karthik Narasimhan},
year={2025},
eprint={2504.01081},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.01081},
}
模型数据
训练数据集
我们的训练数据集包括自然图像和合成图像。对于自然图像,我们从WebLI(Web语言和图像)数据集中采样了与安全任务相关的图像子集。对于合成图像,我们利用内部数据生成管道,以平衡针对危险内容、性露骨内容和暴力内容的图像多样性和严重性,仅限英语。我们的数据生成分类法在多个维度上多样化,包括人口统计、上下文、区域方面等。
数据预处理
以下是应用于训练数据的关键数据清理和过滤方法:
- CSAM过滤:在数据准备过程中应用了CSAM(儿童性虐待材料)过滤,以确保排除非法内容。
实现信息
硬件
ShieldGemma 2使用最新一代的张量处理单元(TPU)硬件(TPUv5e)进行训练,更多细节请参考Gemma 3模型卡。
软件
训练使用JAX和ML Pathways完成。更多细节请参考Gemma 3模型卡。
评估
模型评估指标和结果
ShieldGemma 2 4B针对内部和外部数据集进行了评估。我们的内部数据集通过内部图像数据策划管道合成生成。该管道包括关键步骤,如问题定义、安全分类法生成、图像查询生成、图像生成、属性分析、标签质量验证等。我们为每个危害政策准备了约500个示例。性露骨、危险内容和暴力的阳性比例分别为39%、67%和32%。评估细节请参见技术报告。
内部基准评估结果
|
性露骨内容 |
危险内容 |
暴力与血腥 |
LlavaGuard 7B |
47.6/93.1/63.0 |
67.8/47.2/55.7 |
36.8/100.0/53.8 |
GPT-4o mini |
68.3/97.7/80.3 |
84.4/99.0/91.0 |
40.2/100.0/57.3 |
Gemma-3-4B-IT |
77.7/87.9/82.5 |
75.9/94.5/84.2 |
78.2/82.2/80.1 |
shieldgemma-2-4b-it |
87.6/89.7/88.6 |
95.6/91.9/93.7 |
80.3/90.4/85.0 |
表1:结果格式——精确率/召回率/最优F1(%,越高越好)。在我们的内部基准测试中,ShieldGemma 2的表现优于外部基线模型。
伦理与安全
伦理和安全评估方法及结果。
评估方法
尽管ShieldGemma 2模型名义上是生成模型,但它们设计为以评分模式运行,以预测下一个标记为“是”或“否”的概率。因此,安全评估主要集中在输出有效的图像安全标签上。
评估结果
这些模型在伦理、安全和公平性方面进行了评估,并符合内部指南。与基准相比,评估数据集经过迭代并平衡了多样化的分类法。图像安全标签也经过人工标注,并检查了模型未涵盖的用例,使我们能够在多轮评估中改进。
使用与限制
这些模型有一些用户应注意的限制。
预期用途
ShieldGemma 2旨在用作安全内容审核器,无论是用于人类用户输入、模型输出还是两者。这些模型是负责任生成式AI工具包的一部分,该工具包是一套旨在提高Gemma生态系统中AI应用安全性的建议、工具、数据集和模型。
限制
所有大型语言模型的常见限制均适用,更多细节请参见Gemma 3模型卡。此外,可用于评估内容审核的基准有限,因此训练和评估数据可能无法代表真实场景。
ShieldGemma 2对用户提供的安全原则描述高度敏感,在需要良好理解语言歧义和细微差别的情况下可能表现不可预测。
与Gemma生态系统中的其他模型一样,ShieldGemma 2受Google的禁止使用政策约束。
伦理考虑与风险
大型语言模型(LLM)的开发引发了多个伦理问题。我们在开发这些模型时仔细考虑了多个方面。
更多细节请参考Gemma 3模型卡。
优势
在发布时,这一系列模型提供了高性能的开源大型语言模型实现,专为负责任AI开发而设计,与类似规模的模型相比具有优势。
使用本文档中描述的基准评估指标,这些模型在性能上优于其他规模相当的开源模型替代品。