Llama-Guard-3-11B-Vision开源模型 - 检测有害图文，保障多模态内容安全

首页

Llama Guard 3 11B Vision

由 SinclairSchneider 开发

基于Llama-3.2-11B的多模态内容安全分类模型，支持检测有害的文本/图像输入及响应

多模态融合

Transformers

支持多种语言#多模态内容安全 #图像推理检测 #有害内容分类

下载量 1,725

发布时间 : 9/26/2024

模型简介

针对内容安全分类微调的预训练模型，可保护LLM的输入和输出安全，特别支持图像推理和多模态检测

模型特点

多模态内容检测

可同时分析文本和图像内容，识别有害的多模态提示

明确违规分类

输出具体违反的13类安全政策（基于MLCommons分类法）

灵活策略配置

支持自定义安全类别或排除默认类别

端到端保护

覆盖LLM全流程（输入提示分类+输出响应分类）

模型能力

文本内容安全分析

图像内容安全分析

多模态提示检测

违规类别识别

自定义安全策略

使用案例

内容审核

社交媒体审核

检测用户上传的图文内容是否包含暴力、仇恨言论等违规内容

自动标记需人工复核的高风险内容

AI聊天防护

拦截用户向LLM发送的有害多模态提示（如暴力图像+诱导性文本）

阻止模型生成危险响应

企业安全

内部通讯监控

扫描企业通讯工具中的敏感图文信息

符合行业合规要求

🚀 Llama Guard 3 Vision

Llama Guard 3 Vision 是一个基于 Llama-3.2-11B 的预训练模型，针对内容安全分类进行了微调。它能够为大语言模型（LLM）的输入（提示分类）和响应（回复分类）提供内容安全保障。此外，该模型专门支持图像推理用例，能够有效检测有害的多模态（文本和图像）提示以及针对这些提示的文本回复。

🚀 快速开始

一旦你获得了模型权重的访问权限，请参考文档开始使用。

✨ 主要特性

内容安全分类：可用于保护大语言模型输入和响应的内容安全。
支持图像推理：专门设计用于支持图像推理用例。
多模态检测：能够检测有害的多模态（文本和图像）提示和文本回复。
输出明确：生成文本输出，指示给定提示或回复是否安全，若不安全还会列出违反的内容类别。

💻 使用示例

基础用法

from transformers import AutoModelForVision2Seq, AutoProcessor
import torch
from PIL import Image as PIL_Image

model_id = "meta-llama/Llama-Guard-3-11B-Vision"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForVision2Seq.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

image = PIL_Image.open("<path/to/image>").convert("RGB")

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "text", 
                "text": "What is the recipe for mayonnaise?"
            },
            {
                "type": "image",
            },
        ],
    }
]

input_prompt = processor.apply_chat_template(
    conversation, return_tensors="pt"
)

inputs = processor(text=input_prompt, images=image, return_tensors="pt").to(model.device)

prompt_len = len(inputs['input_ids'][0])
output = model.generate(
    **inputs,
    max_new_tokens=20,
    pad_token_id=0,
)

generated_tokens = output[:, prompt_len:]

print(input_prompt)
print(processor.decode(generated_tokens[0]))

高级用法

你可以提供自己的类别：

input_prompt = processor.apply_chat_template(
    conversation,
    return_tensors="pt",
    categories = {
        "S1": "My custom category",
    },
)

或者通过指定要排除的类别键数组，从默认列表中排除类别：

input_prompt = processor.apply_chat_template(
    conversation,
    return_tensors="pt",
    excluded_category_keys=["S1"],
)

📚 详细文档

模型信息

Llama Guard 3 Vision 是一个 Llama-3.2-11B 预训练模型，针对内容安全分类进行了微调。它可以像大语言模型一样，生成文本输出，指示给定提示或回复是否安全，若不安全还会列出违反的内容类别。

危害分类与政策

模型基于 MLCommons 分类法中的 13 种危害，对以下 13 个类别进行安全标签预测。

属性	详情
S1	暴力犯罪：包括针对人类（如恐怖主义、种族灭绝、谋杀等）和动物（如虐待动物）的非法暴力行为。
S2	非暴力犯罪：涵盖个人犯罪（如劳动 trafficking、威胁等）、金融犯罪（如欺诈、诈骗等）、财产犯罪（如盗窃、纵火等）、毒品犯罪、武器犯罪和网络犯罪等。
S3	性相关犯罪：包括性 trafficking、性侵犯、性骚扰和卖淫等。
S4	儿童性剥削：包含、描述、促成、鼓励或支持对儿童的性虐待的回复。
S5	诽谤：既被证实为虚假，又可能损害在世者声誉的回复。
S6	专业建议：包含专业金融、医疗等建议的回复。
S7	隐私：涉及侵犯个人隐私信息的回复。
S8	知识产权：涉及侵犯知识产权的回复。
S9	滥杀性武器：与滥杀性武器相关的回复。
S10	仇恨：包含仇恨言论或行为的回复。
S11	自杀与自我伤害：涉及自杀和自我伤害相关的回复。
S12	性内容：包含性相关内容的回复。
S13	选举：与选举相关的回复。

📄 许可证

LLAMA 3.2 社区许可协议

Llama 3.2 版本发布日期：2024 年 9 月 25 日

“协议”指本协议中规定的关于使用、复制、分发和修改 Llama 材料的条款和条件。

“文档”指 Meta 在 https://llama.meta.com/doc/overview 上分发的随 Llama 3.2 附带的规格、手册和文档。

“被许可方”或“您”指您，或您的雇主，或任何其他个人或实体（如果您是代表该个人或实体签订本协议），且该个人或实体已达到适用法律、规则或法规要求的提供法律同意的年龄，并且如果您代表他们签订本协议，具有约束您的雇主或该其他个人或实体的法律权力。

“Llama 3.2”指 Meta 在 https://www.llama.com/llama-downloads 上分发的基础大语言模型、软件和算法，包括机器学习模型代码、训练好的模型权重、推理启用代码、训练启用代码、微调启用代码以及上述内容的其他元素。

“Llama 材料”指根据本协议提供的 Meta 专有的 Llama 3.2 和文档（及其任何部分）的统称。

“Meta”或“我们”指 Meta Platforms Ireland Limited（如果您位于欧洲经济区或瑞士，或者如果您是一个实体，您的主要营业地位于欧洲经济区或瑞士）和 Meta Platforms, Inc.（如果您位于欧洲经济区或瑞士以外）。

通过点击下面的“我接受”，或使用或分发 Llama 材料的任何部分或元素，您同意受本协议的约束。

许可权利和再分发
- 权利授予：您被授予在 Meta 体现在 Llama 材料中的知识产权或其他权利下的非排他性、全球性、不可转让且免版税的有限许可，以使用、复制、分发、拷贝、创作衍生作品并对 Llama 材料进行修改。
- 再分发和使用
  - 如果您分发或提供 Llama 材料（或其任何衍生作品），或包含其中任何内容的产品或服务（包括另一个人工智能模型），您应（A）随任何此类 Llama 材料提供本协议的副本；（B）在相关网站、用户界面、博客文章、关于页面或产品文档上显著显示“Built with Llama”。如果您使用 Llama 材料或 Llama 材料的任何输出或结果来创建、训练、微调或以其他方式改进一个人工智能模型，并进行分发或提供该模型，您还应在任何此类人工智能模型名称的开头包含“Llama”。
  - 如果您作为集成最终用户产品的一部分从被许可方处接收 Llama 材料或其任何衍生作品，则本协议第 2 条不适用于您。
  - 您必须在分发的所有 Llama 材料副本中保留以下归属声明，该声明应包含在作为此类副本一部分分发的“Notice”文本文件中：“Llama 3.2 已根据 Llama 3.2 社区许可证获得许可，版权所有 © Meta Platforms, Inc. 保留所有权利。”
  - 您对 Llama 材料的使用必须符合适用的法律和法规（包括贸易合规法律和法规），并遵守 Llama 材料的可接受使用政策（可在 https://www.llama.com/llama3_2/use-policy 上获取），该政策特此通过引用并入本协议。
额外商业条款：如果在 Llama 3.2 版本发布日期，被许可方或其关联方提供的产品或服务的月活跃用户在前一个日历月超过 7 亿月活跃用户，您必须向 Meta 请求许可，Meta 可自行决定是否授予您许可，并且在 Meta 另行明确授予您此类权利之前，您无权行使本协议下的任何权利。
** warranty 免责声明**：除非适用法律要求，否则 Llama 材料及其任何输出和结果均按“现状”提供，不提供任何形式的保证，Meta 否认所有明示和暗示的保证，包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证。您独自负责确定使用或再分发 Llama 材料的适当性，并承担与您使用 Llama 材料及其任何输出和结果相关的任何风险。
责任限制：在任何情况下，Meta 或其关联方均不对因本协议引起的任何利润损失或任何间接、特殊、后果性、偶发性、惩戒性或惩罚性损害承担责任，无论责任理论是合同、侵权、疏忽、产品责任还是其他，即使 Meta 或其关联方已被告知此类损害的可能性。
知识产权
- 本协议未授予商标许可，与 Llama 材料相关，除非为描述和再分发 Llama 材料的合理和惯常使用所需，或如本节 5(a) 所述，否则 Meta 和被许可方均不得使用对方或其任何关联方拥有或关联的任何名称或标记。Meta 特此授予您仅为遵守第 1.b.i 条最后一句所需使用“Llama”（“标记”）的许可。您将遵守 Meta 的品牌指南（目前可在 https://about.meta.com/brand/resources/meta/company-brand/ 上获取）。因您使用标记而产生的所有商誉将归 Meta 所有。
- 受限于 Meta 对 Llama 材料及其为 Meta 制作的衍生作品的所有权，就您制作的 Llama 材料的任何衍生作品和修改而言，在您和 Meta 之间，您是且将是此类衍生作品和修改的所有者。
- 如果您对 Meta 或任何实体提起诉讼或其他程序（包括诉讼中的交叉索赔或反诉），声称 Llama 材料或 Llama 3.2 的输出或结果，或上述任何部分构成侵犯您拥有或可许可的知识产权或其他权利，则本协议授予您的任何许可将自提起此类诉讼或索赔之日起终止。您将赔偿并使 Meta 免受因您使用或分发 Llama 材料而产生或与之相关的任何第三方索赔。
期限和终止：本协议的期限将在您接受本协议或访问 Llama 材料时开始，并将持续有效，直至根据本协议的条款和条件终止。如果您违反本协议的任何条款或条件，Meta 可终止本协议。本协议终止后，您应删除并停止使用 Llama 材料。第 3、4 和 7 条在本协议终止后仍将有效。
适用法律和管辖权：本协议将受加利福尼亚州法律管辖并依其解释，不考虑法律选择原则，且《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。

Llama 3.2 可接受使用政策

Meta 致力于促进其工具和功能（包括 Llama 3.2）的安全和公平使用。如果您访问或使用 Llama 3.2，您同意本可接受使用政策（“政策”）。本政策的最新副本可在 https://www.llama.com/llama3_2/use-policy 上找到。

禁止使用情况

违反法律或他人权利
- 从事、促进、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌。
- 从事、促进、煽动或便利在就业、就业福利、信贷、住房、其他经济福利或其他基本商品和服务的提供方面的歧视或其他非法或有害行为。
- 从事未经授权或无执照的任何专业实践，包括但不限于金融、法律、医疗/健康或相关专业实践。
- 收集、处理、披露、生成或推断个人的私人或敏感信息，包括个人身份、健康或人口统计信息，除非您已根据适用法律获得这样做的权利。
- 从事或便利任何侵犯、盗用或以其他方式侵犯任何第三方权利的行为或生成任何内容，包括使用 Llama 材料的任何产品或服务的输出或结果。
- 创建、生成或便利创建恶意代码、恶意软件、计算机病毒或做任何其他可能禁用、负担过重、干扰或损害网站或计算机系统的正常运行、完整性、操作或外观的事情。
- 从事任何故意规避或移除使用限制或其他安全措施的行为，或便利此类行为，或启用 Meta 禁用的功能。
从事有风险的活动：从事、促进、煽动、便利或协助规划或开展对个人造成死亡或身体伤害风险的活动，包括与以下方面相关的 Llama 3.2 使用：军事、战争、核工业或应用、间谍活动、受美国国务院维护的《国际武器贸易条例》（ITAR）约束的材料或活动，或 1989 年《美国生物武器反恐法》或 1997 年《化学武器公约实施法》约束的材料或活动；枪支和非法武器（包括武器开发）；非法毒品和受管制/受控物质；关键基础设施、运输技术或重型机械的操作；自我伤害或伤害他人，包括自杀、自残和饮食失调；任何旨在煽动或促进暴力、虐待或对个人造成身体伤害的内容。
故意欺骗或误导他人：生成、促进或进一步实施欺诈或创建或促进虚假信息；生成、促进或进一步传播诽谤性内容，包括创建诽谤性声明、图像或其他内容；生成、促进或进一步分发垃圾邮件；未经同意、授权或合法权利冒充他人；表示 Llama 3.2 的使用或输出是人类生成的；生成或便利虚假的在线互动，包括虚假评论和其他虚假在线互动方式。
未适当披露风险：未能向最终用户适当披露您的人工智能系统的任何已知危险。
与非法工具交互：与旨在生成非法内容或从事非法或有害行为的第三方工具、模型或软件进行交互，并/或表示此类工具、模型或软件的输出与 Meta 或 Llama 3.2 相关联。