V

Vit Giantopt Patch16 Siglip 384.v2 Webli

由 timm 开发
基于SigLIP 2的ViT图像编码器,专为timm设计,适用于视觉语言任务
下载量 160
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个基于SigLIP 2架构的视觉变换器(ViT)模型,仅包含图像编码器部分。它使用Sigmoid损失函数进行预训练,适用于各种视觉语言理解任务。

模型特点

SigLIP 2架构
采用改进的SigLIP 2架构,具有增强的语义理解和定位能力
Sigmoid损失函数
使用Sigmoid损失函数进行预训练,提高了模型性能
高分辨率处理
支持384x384像素的输入分辨率
Webli数据集预训练
在Webli大规模数据集上进行预训练

模型能力

图像特征提取
视觉语义理解
图像定位

使用案例

视觉语言任务
图像检索
基于文本查询检索相关图像
图像标注
为图像生成描述性文本
视觉问答
回答关于图像内容的问题