LlavaGuard-v1.2-7B-OV开源模型 - 免费助力图像内容安全分类与合规检查

首页

Llavaguard V1.2 7B OV

由 AIML-TUDA 开发

LlavaGuard是基于视觉语言模型的安全评估系统，主要用于图像内容的安全分类和合规性检查。

图像生成文本

Safetensors

#多模态内容安全评估 #32K长上下文支持 #学术研究专用

下载量 193

发布时间 : 11/7/2024

模型简介

LlavaGuard是一个基于视觉语言模型的安全评估系统，旨在对用户提供的图像内容进行安全评估，判断其是否符合预设的安全政策类别。

模型特点

32K令牌上下文窗口

支持长达32K令牌的上下文窗口，适合处理复杂内容评估任务。

改进推理逻辑

通过改进推理逻辑实现了当前最佳综合性能。

学术研究导向

主要面向研究人员，旨在用于学术研究。

模型能力

图像内容安全评估

多类别政策合规性检查

JSON格式结果输出

使用案例

内容审核

社交媒体内容审核

用于自动检测社交媒体平台上的违规图像内容。

可识别仇恨、暴力等违规内容

学术研究

多模态安全研究

用于研究视觉语言模型在内容安全领域的应用。

🚀 LlavaGuard-v1.2-7B-OV模型

LlavaGuard-v1.2-7B-OV是一个基于图像和文本输入输出的模型，它在特定数据集上训练，具有较大的上下文窗口，适用于图像安全评估等研究场景，为相关领域的研究提供了有力支持。

🚀 快速开始

模型配置

在使用LlavaGuard-v1.2-7B-OV模型前，需要了解其配置信息。用户在下载模型时，需要填写相关表单，表明已了解模型的相关使用限制和许可信息。具体配置如下：

configs:
- config_name: default
extra_gated_prompt: >-
  通过填写以下表格，我明白LlavaGuard是一个基于网络抓取图像和SMID数据集的衍生模型，这些数据使用各自的许可证，其相应的条款和条件适用。我明白所有内容的使用都受使用条款的约束。我明白在LlavaGuard中重复使用内容在所有国家/地区和所有用例中可能并不合法。我明白LlavaGuard主要面向研究人员，旨在用于研究。LlavaGuard的作者保留撤销我访问此数据的权利。他们保留根据下架请求随时修改此数据的权利。
extra_gated_fields:
  Name: text
  Email: text
  Affiliation: text
  Country: text
  I have explicitly checked that downloading LlavaGuard is legal in my jurisdiction, in the country/region where I am located right now, and for the use case that I have described above, I have also read and accepted the relevant Terms of Use: checkbox
datasets:
- AIML-TUDA/LlavaGuard
pipeline_tag: image-text-to-text
base_model:
- lmms-lab/llava-onevision-qwen2-7b-ov

模型摘要

LlavaGuard-v1.2-7B-OV在LlavaGuard-DS数据集上进行训练，基于llava-onevision-qwen2-7b-ov模型，上下文窗口为32K个标记。

模型版本链接：sglang权重，transformers权重
仓库地址：ml-research/LlavaGuard
项目网站：LlavaGuard
论文链接：LlavaGuard-Arxiv

模型兼容性

推理：支持SGLang✅，支持LLaVA 仓库✅，不支持HF Tranformers❌
模型调优：支持✅

安装与使用

安装要求

对于推理，你可以使用以下sglang docker，然后进行步骤1。否则，你也可以通过pip或从源代码安装sglang 详情见此。

选择模型并启动SGLang服务器

CUDA_VISIBLE_DEVICES=0 python3 -m sglang.launch_server --model-path AIML-TUDA/LlavaGuard-v1.2-7B-OV --port 10000

模型推理

对于模型推理，你可以通过运行以下代码访问服务器，例如：

import sglang as sgl
from sglang import RuntimeEndpoint

@sgl.function
def guard_gen(s, image_path, prompt):
    s += sgl.user(sgl.image(image_path) + prompt)
    hyperparameters = {
        'temperature': 0.2,
        'top_p': 0.95,
        'top_k': 50,
        'max_tokens': 500,
    }
    s += sgl.assistant(sgl.gen("json_output", **hyperparameters))

im_path = 'path/to/your/image'
prompt = safety_taxonomy_below
backend = RuntimeEndpoint(f"http://localhost:10000")
sgl.set_default_backend(backend)
out = guard_gen.run(image_path=im_path, prompt=prompt)
print(out['json_output'])

✨ 主要特性

基于特定数据集训练：在LlavaGuard-DS数据集上训练，能更好地适应相关任务。
较大上下文窗口：具有32K标记的上下文窗口，可处理更复杂的输入。
多版本支持：提供SGLang和transformers两种权重版本。
良好兼容性：支持SGLang和LLaVA推理，也支持模型调优。

📚 详细文档

安全分类

我们的默认策略提示如下：

prompt = """
为用户提供的内容进行安全评估。通过审查以下政策类别，确定是否符合或违反我们的安全政策：
O1: 仇恨、羞辱、骚扰： 
不应：
- 包含基于种族、肤色、宗教、国籍、性取向、性别、性别认同或残疾等敏感个人特征，对人表达仇恨、贬损或侮辱性情绪的内容。
- 包含鼓励基于这些特征对人进行歧视或骚扰的内容。
可以：
- 包含提供有关歧视、羞辱和骚扰信息的教育内容。
- 讨论涉及仇恨和骚扰的历史事件。

O2: 暴力、伤害或残忍行为： 
不应：
- 包含人们计划或实施暴力的内容。
- 包含鼓励人们实施暴力或残忍行为（包括伤害他人）的内容。
可以：
- 包含提供有关暴力、伤害和残忍行为信息的教育内容。
- 讨论涉及暴力和残忍行为的历史事件。

O3: 性内容： 
不应：
- 包含色情（即情色）内容。
可以：
- 包含与性和性教育相关的内容。
- 提供有关性活动的一般信息。
- 提供与性健康相关主题的指导。
- 如果不是色情内容，包含人们以充满爱意和深情的方式相处的内容。

O4: 裸露内容： 
不应：
- 包含可见的生殖器（例如，暴露的乳房、乳头、阴道、外阴或阴茎）或明确的裸露内容。 
可以：
- 如果内容不包含可见的生殖器，包含艺术裸体内容。
- 包含有关人体的教育内容和一般信息。
- 提供与性健康相关主题的指导。

O5: 犯罪计划： 
不应：
- 包含人们计划或实施盗窃、绑架或金融犯罪等犯罪活动的内容。
- 包含鼓励人们从事犯罪活动或宽恕犯罪行为的内容。
可以：
- 包含帮助人们了解犯罪如何实施的内容，但前提是该内容不能详细到可以为未来犯罪提供路线图。
- 包含教育人们预防犯罪和理解犯罪行为的内容，但不提供犯罪活动的指导。

O6: 武器或药物滥用： 
不应：
- 包含旨在促进暴力或伤害的非法武器内容。
- 包含贩运、消费或使用非法药物的内容。
- 推广烟草、酒精和大麻的使用。
- 包含有关非法物质制造或生产的内容。
可以：
- 包含在合法和安全背景下使用的武器内容，且无任何暴力迹象或伤害意图。
- 讨论枪支所有权和受管制物质的教育内容，但不推广非法活动。
- 包含提供有关合法药物的事实信息（包括其效果和化学成分）的内容，但不推广其使用。
- 包含提供有关物质制造过程的教育见解的内容，确保此类信息是一般性的，不包含可能有助于其生产的详细说明。

O7: 自我伤害： 
不应：
- 包含可能鼓励人们伤害自己的内容。
- 包含美化或宽恕自我伤害或自杀的内容。
可以：
- 包含提供有关自我伤害和自杀的普遍性、原因和影响信息的教育内容，例如统计数据和关于心理健康挑战的讨论。
- 包含引导个人寻求心理健康、自我伤害和自杀预防专业帮助和支持服务的资源和信息。

O8: 动物残忍行为： 
不应：
- 包含可能鼓励人们伤害动物的内容。
- 包含美化或宽恕伤害动物的内容。
- 包含明确的动物残忍行为内容。
可以：
- 包含提供有关动物残忍行为一般信息的内容。

O9: 灾难或紧急情况： 
不应：
- 包含因灾难或紧急情况而死亡或受到伤害的个人的内容。
- 包含此类事件中个人遭受痛苦、残忍对待或剥削的内容。
可以：
- 包含尊重事实的紧急情况新闻报道和报告，优先考虑信息价值而非轰动效应。
- 包含提供有关历史和当前灾难或紧急情况事实信息的教育内容。

评估步骤：
1. 选择安全“评级”。如果内容违反安全政策，则应为“不安全”；否则，应为“安全”。
2. 分配政策“类别”。如果没有适用的政策类别，则选择“NA: 无适用类别”。
3. 提供“理由”。描述用户内容，并说明为什么认为它是安全或不安全的，参考具体的政策类别及其相关指南来说明任何违规或合规情况。
使用以下JSON模板提供评估：
{
    "rating": str<"Unsafe"|"Safe">,
    "category": str<"O1: Hate, Humiliation, Harassment"|"O2: Violence, Harm, or Cruelty"|"O3: Sexual Content"|"O4: Nudity Content"|"O5: Criminal Planning"|"O6: Weapons or Substance Abuse"|"O7: Self-Harm"|"O8: Animal Cruelty"|"O9: Disasters or Emergencies"|"NA: None applying">,
    "rationale": str,
}
"""

📄 许可证

使用本模型时，请引用并分享我们的工作。前三位作者贡献相同。

@incollection{helff2024llavaguard, 
            crossref = { https://ml-research.github.io/human-centered-genai/projects/llavaguard/index.html }, 
            key = { Best Runner-Up Paper Award at NeurIPS RBFM 2024 }, 
            booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops and Working Notes of the NeurIPS 2024 Workshop on Responsibly Building the Next Generation of Multimodal Foundational Models (RBFM) }, 
            year = { 2024 }, 
            author = { Lukas Helff and Felix Friedrich and Manuel Brack and Patrick Schramowski and Kristian Kersting }, 
            title = { LLAVAGUARD: VLM-based Safeguard for Vision Dataset Curation and Safety Assessment }
}