高精度图像分类
PE Core G14 448
Apache-2.0
感知编码器(PE)是通过简单视觉-语言学习训练出的最先进的图像与视频理解编码器,在多种视觉任务上均达到最先进性能。
文本生成图像
P
facebook
22.83k
14
Mambavision L3 256 21K
其他
首个结合Mamba与Transformer优势的计算机视觉混合模型,通过重构Mamba公式增强视觉特征建模效率,在Mamba架构最后几层引入自注意力模块提升长程空间依赖建模能力。
图像分类
Transformers
M
nvidia
510
7
Mambavision B 21K
其他
首个融合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重构曼巴公式增强视觉特征建模效率,并在曼巴架构末端引入自注意力模块提升长程空间依赖建模能力。
图像分类
Transformers
M
nvidia
1,395
4
Centraasia ResNet 50
MIT
基于ResNet-50架构的预训练模型,专门针对中亚食物图像分类任务进行微调,支持34种中亚食物分类。
图像分类
Transformers
英语
C
Eraly-ml
86
1
Smart Tv Hand Gestures Image Detection
Apache-2.0
基于Vision Transformer架构的智能电视手势识别模型,能够准确分类9种常见手势。
图像分类
Transformers
S
dima806
65
1
Vit Base Beans
Apache-2.0
基于Google Vision Transformer (ViT)架构的图像分类模型,专门针对beans数据集进行微调
图像分类
Transformers
V
HieuVo
49
1
Ai Image Detector Dev Deploy
这是一个基于自动训练的图像分类模型,能够识别多种常见物体类别
图像分类
TensorBoard
A
haywoodsloan
59
1
Cat Dog Classifier With Small Datasest
Apache-2.0
基于microsoft/resnet-50微调的猫狗图像分类模型,在评估集上准确率达95%
图像分类
Transformers
C
MoGHenry
33
1
Cat Dog Classifier
Apache-2.0
基于ResNet-50架构微调的图像分类模型,专门用于区分猫和狗的图像,准确率达96.88%。
图像分类
Transformers
C
MoGHenry
58
1
Tomato Leaf Disease Classification Resnet50
Apache-2.0
基于ResNet-50微调的番茄叶病图像分类模型,准确率达99.56%
图像分类
Transformers
T
wellCh4n
109
1
Tomato Leaf Disease Classification Vit
Apache-2.0
基于Google Vision Transformer (ViT)架构微调的番茄叶片病害分类模型,在评估集上准确率达99.67%
图像分类
Transformers
T
wellCh4n
55
1
Ai Image Detector Deploy
这是一个基于AutoTrain训练的AI图像分类模型,能够准确识别和分类多种图像内容。
图像分类
Transformers
A
haywoodsloan
6,077
4
Aimv2 3B Patch14 448
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多个视觉理解基准测试中表现优异。
图像分类
A
apple
161
12
Aimv2 1B Patch14 448
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多个视觉理解基准测试中表现优异。
图像分类
A
apple
71
0
Aimv2 Huge Patch14 448
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多个基准测试中表现优异。
图像分类
A
apple
1,672
3
Aimv2 Large Patch14 448
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多个基准测试中表现优异
图像分类
A
apple
2,210
5
Aimv2 3B Patch14 336
AIMv2 是一个通过多模态自回归目标预训练的视觉模型系列,在多个多模态理解基准测试中表现优异。
图像分类
A
apple
23
2
Aimv2 1B Patch14 336
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多项多模态理解基准测试中表现优异。
图像分类
A
apple
52
0
Aimv2 Huge Patch14 336
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多个视觉理解基准测试中表现优异。
图像分类
A
apple
188
0
Aimv2 Large Patch14 336
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多项视觉任务中表现优异。
图像分类
A
apple
6,177
3
Aimv2 3B Patch14 224
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多项基准测试中表现优异
图像分类
A
apple
57
3
Aimv2 1B Patch14 224
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多项视觉任务中表现优异。
图像分类
A
apple
299
7
Aimv2 Huge Patch14 224
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多项基准测试中表现优异。
图像分类
A
apple
54
9
Aimv2 Large Patch14 224
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多项视觉任务中表现优异。
图像分类
A
apple
759
50
Vit Batik
MIT
这是一个基于Vision Transformer (ViT)和BEiT架构的图像分类模型,专门用于识别印度尼西亚蜡染图案。
图像分类
其他
V
dewanakl
60
1
Mambavision L 1K
其他
首个结合Mamba与Transformer优势的计算机视觉混合模型,通过重新设计Mamba公式增强视觉特征建模能力
图像分类
Transformers
M
nvidia
1,542
5
UL Base Classification
Apache-2.0
该模型是基于Google的ViT-base-patch16-224在图像文件夹数据集上微调的图像分类模型,验证集准确率达89.21%。
图像分类
Transformers
U
sharmajai901
2,432
1
AI VS REAL IMAGE DETECTION
Apache-2.0
基于Google Vision Transformer (ViT)架构微调的图像分类模型,用于区分AI生成图像与真实图像
图像分类
Transformers
A
Hemg
259
2
Cat Vs Dog Classification
Apache-2.0
基于Google的ViT模型在cats_vs_dogs数据集上微调的图像分类模型,用于区分猫和狗的图像。
图像分类
Transformers
C
kazuma313
42
1
Carmodel
Apache-2.0
基于google/vit-base-patch16-224微调的视觉模型,在评估集上F1分数达到0.9931
图像分类
Transformers
C
TechRoC123
24
1
Vitforimageclassification
Apache-2.0
该模型是基于google/vit-base-patch16-224-in21k在CIFAR10数据集上微调的图像分类模型,准确率达96.78%。
图像分类
Transformers
V
Andron00e
43
2
Vit Finetuned Vanilla Cifar10 0
Apache-2.0
基于Vision Transformer (ViT)架构在CIFAR-10数据集上微调的图像分类模型,准确率达99.2%
图像分类
Transformers
V
02shanky
68
1
Vit Base Patch16 224 In21k Finetuned Moderation
Apache-2.0
基于Google Vision Transformer架构的图像分类模型,专为内容审核任务微调,在测试集上达到90.43%准确率
图像分类
Transformers
V
mbehbooei
752
3
Dogs Breed Classification Using Vision Transformers
Openrail
这是一个用于图像分类任务的模型,支持英文语言,采用开放许可。
图像分类
Transformers
英语
D
AmitMidday
27
1
Swin Tiny Patch4 Window7 224 Cifar10
Apache-2.0
基于Swin Transformer架构的微小模型,专为CIFAR-10图像分类任务微调
图像分类
Transformers
S
Skafu
94
1
Clasificacion Vit Model Manuel Chaves
Apache-2.0
基于google/vit-base-patch16-224-in21k微调的图像分类模型,在豆类数据集上达到97.74%的准确率
图像分类
Transformers
C
machves
15
0
Deit Tiny Patch16 224 Finetuned Main Gpu 20e Final
Apache-2.0
基于DeiT-tiny架构的轻量级图像分类模型,在自定义图像数据集上微调后达到98.56%的验证准确率
图像分类
Transformers
D
Gokulapriyan
15
0
Vitezoa
这是一个由HuggingPics生成的图像分类模型,能够对多种图像进行分类,如动物、鸟类和国旗等。
图像分类
Transformers
V
ezoa
15
0
Swinv2 Chaoyang
Apache-2.0
这是一个基于ImageNet-1k数据集训练的视觉图像分类模型,能够识别多种常见物体和场景。
图像分类
Transformers
S
Snarci
14
0
Clip Vit Large Patch14 Finetuned Fruits 360 Vitlarge
基于CLIP ViT-Large模型在Fruits-360数据集上微调的高精度水果图像分类模型
图像分类
Transformers
C
AnneMarie1
29
0