S

Siglip So400m 14 980 Flash Attn2 Navit

由 HuggingFaceM4 开发
基于SigLIP的视觉模型,通过插值位置嵌入提升最大分辨率至980x980,并实现NaViT策略支持可变分辨率和保持宽高比的图像处理
下载量 4,153
发布时间 : 1/30/2024
模型介绍
内容详情
替代品

模型简介

该模型是对原SigLIP视觉模型的改进版本,主要增强了图像处理能力,支持更高分辨率和更灵活的输入尺寸,同时保持与原模型的兼容性。

模型特点

高分辨率支持
通过插值位置嵌入将最大分辨率从384x384提升至980x980
NaViT策略实现
支持可变分辨率图像处理和保持宽高比的图像输入
向后兼容
完全兼容原SigLIP模型,不指定patch_attention_mask时行为与原模型一致
高效注意力机制
采用Flash Attention 2实现高效计算

模型能力

高分辨率图像处理
可变分辨率图像特征提取
保持宽高比的图像分析
视觉表示学习

使用案例

计算机视觉
高分辨率图像分析
处理高分辨率图像(最高980x980)的特征提取
获得更精细的图像特征表示
可变尺寸图像处理
处理不同尺寸和比例的图像输入
无需统一尺寸即可进行特征提取
多模态学习
视觉-语言对齐
与文本模块结合实现图像-文本匹配任务