多模态预训练
Style 250412.vit Base Patch16 Siglip 384.v2 Webli
基于Vision Transformer架构的视觉模型,采用SigLIP(Sigmoid Loss for Language-Image Pretraining)训练方法,适用于图像理解任务。
图像分类
Transformers
S
p1atdev
66
0
Comp SigLIP So400M
Apache-2.0
CoMP-MM-1B是一个支持原生图像分辨率输入的视觉基础模型(VFM),基于SigLIP持续预训练而成。
多模态融合
C
SliMM-X
33
1
Yoloe 11l Seg
YOLOE是一个实时视觉全能模型,支持零样本目标检测等多种视觉任务。
目标检测
Y
jameslahm
219
2
Yoloe V8l Seg
YOLOE是一个实时视觉全能模型,结合了目标检测和视觉理解能力,适用于多种视觉任务。
目标检测
Y
jameslahm
4,135
1
Yoloe V8s Seg
YOLOE 是一个零样本目标检测模型,能够实时检测视觉场景中的各种物体。
目标检测
Y
jameslahm
28
0
Aimv2 Large Patch14 448.apple Pt
AIM-v2是一个基于timm库的图像特征提取模型,采用大尺寸补丁设计,适用于高分辨率图像处理。
图像分类
Transformers
A
timm
68
0
Aimv2 Huge Patch14 224.apple Pt
AIM-v2是一个高效的图像编码器,基于timm库实现,适用于图像特征提取任务。
图像分类
Transformers
A
timm
93
0
Aimv2 3b Patch14 448.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,具有3B参数规模,适用于图像特征提取任务。
图像分类
Transformers
A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,适用于图像特征提取任务。
图像分类
Transformers
A
timm
35
0
Aimv2 3b Patch14 224.apple Pt
AIM-v2是一个高效的图像编码器模型,兼容timm框架,适用于计算机视觉任务。
图像分类
Transformers
A
timm
50
0
Aimv2 1b Patch14 336.apple Pt
AIM-v2是由苹果公司开发的图像编码器模型,基于timm库兼容的架构,适用于图像特征提取任务。
图像分类
Transformers
A
timm
65
0
Resnet101 Clip Gap.openai
Apache-2.0
基于CLIP框架的ResNet101图像编码器,通过全局平均池化(GAP)提取图像特征
图像分类
Transformers
R
timm
104
0
Resnet50x4 Clip Gap.openai
Apache-2.0
基于CLIP框架的ResNet50x4变体模型,专为图像特征提取设计
图像分类
Transformers
R
timm
170
0
Resnet50 Clip Gap.openai
Apache-2.0
基于CLIP模型视觉编码器部分的ResNet50变体,通过全局平均池化(GAP)提取图像特征
图像分类
Transformers
R
timm
250
1
Resnet50 Clip Gap.cc12m
Apache-2.0
基于ResNet50架构的CLIP风格图像编码器,使用CC12M数据集训练,通过全局平均池化(GAP)提取特征
图像分类
Transformers
R
timm
19
0
Vit Huge Patch14 Clip Quickgelu 378.dfn5b
其他
基于CLIP架构的ViT-Huge图像编码器,使用DFN5B数据集训练,支持快速GELU激活
图像分类
Transformers
V
timm
27
0
Vit Huge Patch14 Clip 378.dfn5b
其他
DFN5B-CLIP的视觉编码器部分,基于ViT-Huge架构,使用378x378分辨率图像训练的CLIP模型
图像分类
Transformers
V
timm
461
0
Vit Base Patch16 Clip 224.dfn2b
其他
基于CLIP架构的视觉Transformer模型,由苹果公司发布的DFN2B-CLIP图像编码器权重
图像分类
Transformers
V
timm
444
0
Vit So400m Patch14 Siglip Gap 896.pali Pt
Apache-2.0
基于SigLIP图像编码器的视觉模型,采用全局平均池化,是PaliGemma项目的一部分
文本生成图像
Transformers
V
timm
15
1
Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt
Apache-2.0
基于SigLIP图像编码器的视觉模型,带全局平均池化,是PaliGemma2模型的一部分
文本生成图像
Transformers
V
timm
57
1
Vit So400m Patch14 Siglip Gap 896.pali2 3b Pt
Apache-2.0
基于SigLIP图像编码器的视觉模型,采用全局平均池化,是PaliGemma2项目的一部分
文本生成图像
Transformers
V
timm
14
1
Vit So400m Patch14 Siglip Gap 448.pali Mix
Apache-2.0
基于SigLIP图像编码器的视觉语言模型,采用全局平均池化处理,适用于多模态任务。
文本生成图像
Transformers
V
timm
15
0
Vit So400m Patch14 Siglip 378.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器,采用原始注意力池化机制。
图像分类
Transformers
V
timm
82
0
Vit Large Patch16 Siglip Gap 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,采用全局平均池化,适用于图像特征提取任务。
图像分类
Transformers
V
timm
13
0
Vit Base Patch16 Siglip 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers
V
timm
64
1
Vit Base Patch16 Siglip 256.webli
Apache-2.0
基于SigLIP的ViT-B-16图像编码器模型,采用原始注意力池化,适用于图像特征提取任务。
图像分类
Transformers
V
timm
269
1
Vit Base Patch16 Siglip Gap 224.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用全局平均池化策略
图像分类
Transformers
V
timm
178
1
Vit Base Patch16 Siglip 224.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers
V
timm
330
1
Vit Large Patch14 Clip 224.laion2b
Apache-2.0
基于CLIP架构的视觉Transformer模型,专注于图像特征提取
图像分类
Transformers
V
timm
502
0
Vit Large Patch14 Clip 224.datacompxl
Apache-2.0
基于CLIP架构的视觉Transformer模型,专门用于图像特征提取,由LAION组织发布。
图像分类
Transformers
V
timm
14
0
Vit Huge Patch14 Clip 224.laion2b
Apache-2.0
基于CLIP框架的ViT-Huge视觉编码器,使用laion2B数据集训练,支持图像特征提取
图像分类
Transformers
V
timm
1,969
0
Vit Base Patch32 Clip 256.datacompxl
Apache-2.0
基于CLIP架构的视觉Transformer模型,专注于图像特征提取,支持256x256分辨率输入
图像分类
Transformers
V
timm
89
0
Vit Base Patch32 Clip 224.laion2b
Apache-2.0
基于CLIP架构的视觉Transformer模型,专为图像特征提取设计,使用laion2B数据集训练
图像分类
Transformers
V
timm
83
0
Vit Base Patch32 Clip 224.datacompxl
Apache-2.0
基于CLIP架构的视觉Transformer模型,专为图像特征提取设计,使用DataComp XL数据集训练
图像分类
Transformers
V
timm
13
0
Vit Base Patch16 Clip 224.datacompxl
Apache-2.0
基于CLIP架构的视觉Transformer模型,专门用于图像特征提取,采用ViT-B/16结构并在DataComp XL数据集上训练
图像分类
Transformers
V
timm
36
0
Convnext Xxlarge.clip Laion2b Soup
Apache-2.0
基于CLIP框架的ConvNeXt-XXLarge图像编码器,由LAION训练,适用于多模态任务
图像分类
Transformers
C
timm
220
0
Convnext Base.clip Laiona
Apache-2.0
基于CLIP框架的ConvNeXt Base模型,使用LAION-Aesthetic数据集训练,适用于图像特征提取任务。
图像分类
Transformers
C
timm
14
0
Convnext Base.clip Laion2b Augreg
Apache-2.0
基于CLIP框架的ConvNeXt Base图像编码器,使用LAION-2B数据集训练,支持图像特征提取
图像分类
Transformers
C
timm
522
0
Convnext Base.clip Laion2b
Apache-2.0
基于ConvNeXt架构的CLIP图像编码器,由LAION组织训练,适用于多模态视觉-语言任务
图像分类
Transformers
C
timm
297
0
Vit Huge Patch14 Clip 224.metaclip Altogether
基于ViT-Huge架构的CLIP模型,支持零样本图像分类任务
图像分类
V
timm
171
1