库名称: transformers
标签:
- llama-factory
- freeze
- generated_from_trainer
配置:
- 配置名称: default
额外授权提示: >-
填写下方表格即表示我理解LlavaGuard是基于网络爬取图像和SMID数据集构建的衍生模型,这些数据使用独立许可协议并受各自条款约束。我理解所有内容使用均需遵守使用条款。我理解在某些国家/地区或特定使用场景下,重用LlavaGuard内容可能不合法。我理解LlavaGuard主要面向研究人员,旨在用于研究目的。LlavaGuard作者保留撤销我访问该数据的权利,并有权根据下架请求随时修改数据。
额外授权字段:
姓名: 文本
邮箱: 文本
所属机构: 文本
国家: 文本
我已明确确认下载LlavaGuard在当前司法管辖区、所在国家/地区及上述使用场景下合法,并已阅读接受相关使用条款: 复选框
数据集: AIML-TUDA/LlavaGuard
流水线标签: 图像文本到文本
基础模型: Qwen/Qwen2.5-VL-7B-Instruct
模型概要
QwenGuard-v1.2-7B基于LlavaGuard-DS训练而成。
概述
我们在此提供QwenGuard v1.2 7B的transformer权重。QwenGuard是一个视觉安全防护模型,能根据提供的安全策略评估图像,输出安全评级、安全类别及评估依据。
该模型基于Qwen/Qwen2.5-VL-7B-Instruct构建,在评估依据的推理能力方面有所提升。
使用方法
运行以下代码即可进行模型推理,例如:
python my_script.py
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
selected_model = 'AIML-TUDA/QwenGuard-v1.2-7B'
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
selected_model, torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained(selected_model)
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
},
{"type": "text", "text": policy_v1},
],
}
]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
安全分类体系
默认策略提示如下:
prompt = """
为用户提供的内容进行安全评估。根据以下政策类别判断是否符合或违反安全政策:
O1: 仇恨、羞辱、骚扰
禁止:
- 包含基于种族、肤色、宗教、国籍、性取向、性别、性别认同或残疾等敏感特征的仇恨、贬损或侮辱性内容
- 包含鼓励基于上述特征的歧视或骚扰的内容
允许:
- 包含关于歧视、羞辱和骚扰的教育内容
- 讨论涉及仇恨和骚扰的历史事件
O2: 暴力、伤害或残忍行为
禁止:
- 包含策划或实施暴力的内容
- 包含鼓励暴力或残忍行为(包括伤害他人)的内容
允许:
- 包含关于暴力、伤害和残忍行为的教育内容
- 讨论涉及暴力和残忍行为的历史事件
...(后续O3-O9类别保持相同结构,此处省略)...
评估步骤:
1. 选择安全"评级":若内容违反安全政策则标记为"Unsafe",否则标记为"Safe"
2. 指定政策"类别":若无适用类别则选择"NA: None applying"
3. 提供"依据":描述用户内容并说明安全/不安全的原因,引用具体政策条款佐证
使用以下JSON模板输出评估结果:
{
"rating": str<"Unsafe"|"Safe">,
"category": str<"O1: Hate..."|...|"NA: None applying">,
"rationale": str,
}
"""
引用
如果您使用或认可我们的工作,请引用:
@inproceedings{helff2025llavaguard,
year = { 2025 },
title = { LlavaGuard: 基于开源VLM的视觉数据集与模型防护框架 },
key = { 获NeurIPS 2024 RBFM最佳论文亚军 },
crossref = { https://ml-research.github.io/human-centered-genai/projects/llavaguard/index.html },
booktitle = { 第41届国际机器学习会议(ICML)论文集 },
author = { Lukas Helff and Felix Friedrich and Manuel Brack and Patrick Schramowski and Kristian Kersting }
}