V

Vit Base Patch16 Siglip 256.webli

由 timm 开发
基于SigLIP的ViT-B-16图像编码器模型,采用原始注意力池化,适用于图像特征提取任务。
下载量 269
发布时间 : 12/24/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于SigLIP(Sigmoid Loss for Language-Image Pre-training)的ViT-B-16架构图像编码器,主要用于图像特征提取任务。

模型特点

基于SigLIP预训练
采用Sigmoid Loss进行语言-图像预训练,优化了图像特征提取能力。
ViT-B-16架构
使用Vision Transformer Base 16架构,具有强大的图像处理能力。
原始注意力池化
采用原始注意力池化机制,提高了特征提取的效率和准确性。

模型能力

图像特征提取
视觉表示学习

使用案例

计算机视觉
图像分类
可用于图像分类任务,提取图像特征供分类器使用。
图像检索
可用于图像检索任务,通过提取的特征进行相似图像搜索。