SigLIP 2 ViT开源图像编码器 - 免费部署，专为timm设计高效编码图像

首页

Vit Giantopt Patch16 Siglip Gap 256.v2 Webli

由 timm 开发

SigLIP 2 ViT图像编码器，采用全局平均池化，移除了注意力池化头，专为timm设计

图像分类

Transformers

开源协议:Apache-2.0 #多模态视觉编码 #全局平均池化 #高语义理解

下载量 17

发布时间 : 2/21/2025

模型简介

这是一个基于SigLIP 2的视觉Transformer模型，专门用于图像特征提取。它采用全局平均池化(GAP)替代了注意力池化头，适用于需要高效图像特征表示的任务。

模型特点

SigLIP 2架构

基于改进的SigLIP 2架构，具有增强的语义理解和特征提取能力

全局平均池化

采用全局平均池化(GAP)替代注意力池化头，简化模型结构

大规模预训练

在webli数据集上进行预训练，具有强大的视觉表示能力

模型能力

图像特征提取

视觉语义理解

密集特征表示

使用案例

计算机视觉

图像检索

提取图像特征用于相似图像检索

视觉定位

为视觉定位任务提供密集特征表示

多模态应用

视觉语言预训练

作为视觉编码器用于视觉语言模型

属性	详情
数据集	webli
论文	SigLIP 2: Multilingual Vision - Language Encoders with Improved Semantic Understanding, Localization, and Dense Features Sigmoid Loss for Language Image Pre - Training

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Vit Giantopt Patch16 Siglip Gap 256.v2 Webli

模型简介

模型特点

模型能力

使用案例

🚀 vit_giantopt_patch16_siglip_gap_256.v2_webli模型卡片

📚 详细文档

模型详情

引用信息

📄 许可证