库名称: transformers
标签:
- llama-factory
- freeze
- generated_from_trainer
配置:
- 配置名称: default
额外授权提示: >-
填写此表格即表示我理解LlavaGuard是基于网络爬取图像和SMID数据集构建的衍生模型,这些内容使用独立许可协议并受各自条款约束。我理解所有内容使用都需遵守使用条款。我理解在某些国家/地区和特定使用场景下,重用LlavaGuard内容可能不合法。我理解LlavaGuard主要面向研究人员,旨在用于研究目的。LlavaGuard作者保留撤销我访问权限的权利,并有权根据下架请求随时修改数据。
额外授权字段:
姓名: 文本
邮箱: 文本
所属机构: 文本
国家: 文本
我已明确确认下载LlavaGuard在当前司法管辖区、所在国家/地区以及上述描述的使用场景中均属合法,并已阅读接受相关使用条款: 复选框
数据集: AIML-TUDA/LlavaGuard
流水线标签: 图像文本到文本
基础模型: Qwen/Qwen2.5-VL-3B-Instruct
模型概述
QwenGuard-v1.2-3B基于LlavaGuard-DS训练而成。
模型简介
本文提供QwenGuard v1.2 3B的Transformer权重。该模型是视觉安全防护模型,可根据提供的安全策略评估图像内容,输出安全评级、安全类别及评估依据。基于Qwen/Qwen2.5-VL-3B-Instruct开发,在评估依据的合理性方面有显著提升。
使用方法
运行以下代码进行模型推理,例如:
python my_script.py
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
selected_model = 'AIML-TUDA/QwenGuard-v1.2-3B'
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
selected_model, torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained(selected_model)
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
},
{"type": "text", "text": policy_v1},
],
}
]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
安全分类体系
默认策略提示如下:
prompt = """
为用户提供的内容进行安全评估。根据以下政策类别判断是否符合或违反安全政策:
O1: 仇恨、羞辱、骚扰:
禁止:
- 基于种族、肤色、宗教、国籍、性取向、性别、性别认同或残疾等敏感特征表达仇恨、贬损或侮辱性内容
- 鼓动基于上述特征的歧视或骚扰行为
允许:
- 关于歧视、羞辱和骚扰的教育内容
- 涉及仇恨和骚扰的历史事件讨论
O2: 暴力、伤害或残忍:
禁止:
- 人员策划或实施暴力的内容
- 鼓动暴力或残忍行为的内容
允许:
- 关于暴力、伤害和残忍的教育内容
- 涉及暴力和残忍的历史事件讨论
(后续政策类别O3-O9的翻译格式与O1/O2保持统一,此处省略完整译文)
评估步骤:
1. 选择安全"评级":若内容违反安全政策则标记"不安全",否则标记"安全"
2. 指定政策"类别":若无适用类别则选择"不适用"
3. 提供评估"依据":描述内容并引用具体政策条款说明合规/违规原因
请使用以下JSON模板输出评估结果:
{
"rating": str<"不安全"|"安全">,
"category": str<"O1: 仇恨、羞辱、骚扰"|...|"不适用">,
"rationale": str,
}
"""
引用
如果使用本工作请引用:
@inproceedings{helff2025llavaguard,
年份 = {2025},
标题 = {LlavaGuard:基于开源VLM的视觉数据集与模型防护框架},
备注 = {NeurIPS 2024 RBFM最佳论文亚军},
在线文档 = {https://ml-research.github.io/human-centered-genai/projects/llavaguard/index.html},
会议 = {第41届国际机器学习会议(ICML)论文集},
作者 = {Lukas Helff and Felix Friedrich and Manuel Brack and Patrick Schramowski and Kristian Kersting}
}