siglip - so400m - 14 - 980 - flash - attn2 - navit开源视觉模型，支持可变分辨率图像处理

首页

Siglip So400m 14 980 Flash Attn2 Navit

由 HuggingFaceM4 开发

基于SigLIP的视觉模型，通过插值位置嵌入提升最大分辨率至980x980，并实现NaViT策略支持可变分辨率和保持宽高比的图像处理

文本生成图像

Transformers

开源协议:Apache-2.0 #可变分辨率视觉 #高分辨率图像处理 #保持宽高比

下载量 4,153

发布时间 : 1/30/2024

模型简介

该模型是对原SigLIP视觉模型的改进版本，主要增强了图像处理能力，支持更高分辨率和更灵活的输入尺寸，同时保持与原模型的兼容性。

模型特点

高分辨率支持

通过插值位置嵌入将最大分辨率从384x384提升至980x980

NaViT策略实现

支持可变分辨率图像处理和保持宽高比的图像输入

向后兼容

完全兼容原SigLIP模型，不指定patch_attention_mask时行为与原模型一致

高效注意力机制

采用Flash Attention 2实现高效计算

模型能力

高分辨率图像处理

可变分辨率图像特征提取

保持宽高比的图像分析

视觉表示学习

使用案例

计算机视觉

高分辨率图像分析

处理高分辨率图像（最高980x980）的特征提取

获得更精细的图像特征表示

可变尺寸图像处理

处理不同尺寸和比例的图像输入

无需统一尺寸即可进行特征提取

多模态学习

视觉-语言对齐

与文本模块结合实现图像-文本匹配任务

🚀 Siglip视觉模型改进版

本项目是对https://huggingface.co/HuggingFaceM4/siglip-so400m-14-384-flash-attn2的改进，主要解决了原模型在图像分辨率和处理不同尺寸图像方面的局限性，提升了模型在视觉处理上的灵活性和适用性。

🚀 快速开始

本模型是https://huggingface.co/HuggingFaceM4/siglip-so400m-14-384-flash-attn2的改进版本，主要有以下两处改动：

通过对位置嵌入进行插值，将最大分辨率提高到 980 x 980（原模型为 384 x 384）。
采用了 NaViT 中的策略，以支持 a/ 可变分辨率的图像，b/ 保持宽高比的图像。

这些改动仅应用于视觉塔，文本塔未做任何修改。该实现与 https://huggingface.co/HuggingFaceM4/siglip-so400m-14-384-flash-attn2 完全向后兼容，只需不指定 patch_attention_mask 即可。

💻 使用示例

基础用法

import torch
from modeling_siglip import SiglipVisionModel

DEVICE = torch.device("cuda:0")
PATCH_SIZE = 14

pixel_values = torch.randn(2, 3, 28, 42, dtype=torch.bfloat16, device=DEVICE)
pixel_attention_mask = [
    [
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,

        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
    ],
    [
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,

        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
    ],
]
pixel_attention_mask = torch.tensor(pixel_attention_mask, dtype=torch.bool, device=DEVICE)
patches_subgrid = pixel_attention_mask.unfold(
    dimension=1, size=PATCH_SIZE, step=PATCH_SIZE
).unfold(dimension=2, size=PATCH_SIZE, step=PATCH_SIZE)
patch_attention_mask = (patches_subgrid.sum(dim=(-1, -2)) > 0).bool()

model = SiglipVisionModel.from_pretrained("HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit", _flash_attn_2_enabled=True)
model.train()
model.vision_model.to(DEVICE, dtype=torch.bfloat16)

output = model.vision_model(pixel_values=pixel_values, patch_attention_mask=patch_attention_mask)