高分辨率处理
Webssl Dino7b Full8b 378
基于80亿无语言标注网络图像训练的70亿参数视觉Transformer模型,通过自监督学习实现卓越的视觉表征能力
图像分类
Transformers
W
facebook
68
0
Auramask Ensemble Poprocket
Gpl-3.0
该模型使用改进的vnet架构进行图像到图像处理,支持对抗性、美学和质量增强等任务
图像生成
A
logasja
15
0
Auramask Ensemble Moon
Gpl-3.0
该模型使用改进的vnet架构进行2D图像处理,专注于图像到图像的转换任务,具有对抗性和美学优化特性。
图像生成
A
logasja
17
0
C RADIOv2 G
其他
C-RADIOv2是NVIDIA开发的视觉特征提取模型,提供多种规格版本,适用于图像理解和密集处理任务。
图像嵌入
Transformers
C
nvidia
648
11
C RADIOv2 B
其他
C-RADIOv2是NVIDIA开发的视觉特征提取模型,提供多种尺寸版本,适用于图像理解和密集视觉任务。
图像特征提取
Transformers
C
nvidia
404
8
Aimv2 3b Patch14 448.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,具有3B参数规模,适用于图像特征提取任务。
图像分类
Transformers
A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,适用于图像特征提取任务。
图像分类
Transformers
A
timm
35
0
Resnet50x64 Clip Gap.openai
Apache-2.0
基于ResNet50架构的CLIP模型图像编码器,具有64倍宽度扩展,使用全局平均池化(GAP)策略
图像分类
Transformers
R
timm
107
0
Resnet50x16 Clip Gap.openai
Apache-2.0
基于CLIP框架的ResNet50x16变体模型,专注于图像特征提取
图像分类
Transformers
R
timm
129
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基于CLIP架构的ViT-Huge图像编码器,由苹果公司发布的DFN5B-CLIP模型,适用于视觉特征提取任务。
图像分类
Transformers
V
timm
128
0
Vit So400m Patch14 Siglip Gap 896.pali Pt
Apache-2.0
基于SigLIP图像编码器的视觉模型,采用全局平均池化,是PaliGemma项目的一部分
文本生成图像
Transformers
V
timm
15
1
Vit So400m Patch14 Siglip Gap 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,采用全局平均池化处理图像特征
图像分类
Transformers
V
timm
96
0
Vit Base Patch16 Siglip 512.webli
Apache-2.0
基于SigLIP架构的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers
V
timm
702
0
Vit Base Patch16 Siglip 256.webli I18n
Apache-2.0
基于SigLIP的ViT-B-16视觉Transformer模型,仅包含图像编码器,采用原始注意力池化
图像分类
Transformers
V
timm
16
0
Convnext Large Mlp.clip Laion2b Ft Soup 320
Apache-2.0
基于CLIP架构的ConvNeXt-Large图像编码器,在LAION-2B数据集上微调,支持320x320分辨率图像特征提取
图像分类
Transformers
C
timm
173
0
Mini InternVL2 1B DA DriveLM
MIT
Mini-InternVL2-DA-RS是针对遥感图像领域优化的多模态模型,基于Mini-InternVL架构,通过领域适配框架微调,在遥感图像理解任务上表现优异。
图像生成文本
Transformers
其他
M
OpenGVLab
61
1
Coreml DepthPro
DepthPro 是一种单目深度估计模型,能够通过单张图像预测深度。
3D视觉
C
KeighBee
17
4
Timesformer Hr Finetuned K600
TimeSformer-HR 是一个基于视频的动作识别模型,专门针对高分辨率视频进行了优化,并在 Kinetics-600 数据集上进行了微调。
视频处理
Transformers
T
onnx-community
17
0
Dust3r ViTLarge BaseDecoder 512 Dpt
DUSt3R是一个用于从图像轻松实现几何3D视觉的模型,能够从单张或多张图像重建3D场景。
3D视觉
D
naver
46.93k
14
C RADIO
其他
NVIDIA开发的视觉特征提取模型,用于生成图像嵌入,支持下游任务如图像分类。
视觉特征提取
Transformers
C
nvidia
398
14
Vit L 14 336
MIT
基于Vision Transformer架构的大规模视觉语言模型,支持零样本图像分类任务
图像分类
V
asakhare
20
0
Artwork Scorer
Apache-2.0
该模型是基于Facebook ConvNeXtV2架构的微调版本,专门针对Pixiv排行榜图像进行多标签分类任务训练
图像分类
Transformers
A
Muinez
32
5
Aesthetic Shadow
美学阴影是一款拥有11亿参数的视觉Transformer模型,专为评估动漫图像质量而设计。
图像分类
Transformers
A
shadowlilac
373
26
Segformer B4 City Satellite Segmentation 1024x1024
Openrail
基于SegFormer架构的卫星图像分割模型,专为城市区域分割任务设计
图像分割
Transformers
S
ratnaonline1
110
4
Eva02 Enormous Patch14 Clip 224.laion2b S4b B115k
MIT
基于EVA02架构的大规模视觉-语言模型,支持零样本图像分类任务
文本生成图像
E
timm
130
1
Eva02 Large Patch14 Clip 336.merged2b S6b B61k
MIT
EVA02是一个基于CLIP架构的大规模视觉-语言模型,支持零样本图像分类任务。
文本生成图像
E
timm
15.78k
0
Efficientnet B6
Apache-2.0
EfficientNet是一款移动端友好的纯卷积模型,通过复合系数统一缩放深度/宽度/分辨率维度,在ImageNet-1k数据集上训练
图像分类
Transformers
E
google
167
0
Convnextv2 Huge.fcmae
基于ConvNeXt-V2的自监督特征表示模型,采用全卷积掩码自编码器框架(FCMAE)进行预训练,适用于图像分类和特征提取任务。
图像分类
Transformers
C
timm
52
0
Timesformer Hr Finetuned Ssv2
TimeSformer是一个基于时空注意力机制的视频分类模型,在Something Something v2数据集上进行了微调。
视频处理
Transformers
T
fcakyon
14
0
Timesformer Hr Finetuned K600
TimeSformer是一种基于时空注意力机制的视频理解模型,高分辨率变体专门针对Kinetics-600数据集进行了微调。
视频处理
Transformers
T
fcakyon
22
0
Timesformer Hr Finetuned Ssv2
TimeSformer是基于空间-时间注意力机制的视频理解模型,该版本是在Something Something v2数据集上微调的高分辨率变体。
视频处理
Transformers
T
facebook
550
2
Timesformer Hr Finetuned K400
TimeSformer是一种基于空间-时间注意力机制的视频理解模型,在Kinetics-400数据集上进行了预训练和微调。
视频处理
Transformers
T
facebook
178
2
Segformer B0 Finetuned Cityscapes 640 1280
其他
SegFormer是一个基于Transformer架构的语义分割模型,在Cityscapes数据集上进行了微调,适用于道路场景分割任务。
图像分割
Transformers
S
nvidia
41
0
Vit Large Patch16 224
Apache-2.0
基于Transformer架构的大规模图像分类模型,在ImageNet-21k和ImageNet-1k数据集上预训练和微调
图像分类
V
google
188.47k
30
Beit Base Finetuned Ade 640 640
Apache-2.0
BEiT是一种基于视觉Transformer(ViT)架构的模型,通过自监督学习在ImageNet-21k上预训练,并在ADE20k数据集上微调,专门用于图像语义分割任务。
图像分割
Transformers
B
microsoft
1,645
11