Comp SigLIP So400M
Apache-2.0
CoMP-MM-1B是一个支持原生图像分辨率输入的视觉基础模型(VFM),基于SigLIP持续预训练而成。
多模态融合
C
SliMM-X
33
1
Sam2 Hiera Base Plus.fb R896 2pt1
Apache-2.0
基于HieraDet图像编码器的SAM2模型权重,专注于图像特征提取任务
图像分割
Transformers

S
timm
148
0
Vit Large Patch16 Siglip Gap 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,采用全局平均池化,适用于图像特征提取任务。
图像分类
Transformers

V
timm
13
0
Florence 2 Large Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉与视觉-语言任务。
文本生成图像
Transformers

F
microsoft
269.44k
349
Resnet50x16 Clip.openai
MIT
基于CLIP框架的ResNet50x16视觉模型,支持零样本图像分类任务
图像分类
R
timm
702
0
Resnet50x4 Clip.openai
MIT
基于CLIP架构的ResNet50x4视觉语言模型,支持零样本图像分类任务
图像生成文本
R
timm
2,303
0
Vit Bigg 14 CLIPA Datacomp1b
Apache-2.0
CLIPA-v2模型,专注于零样本图像分类任务,通过对比式图文训练实现高效视觉表示学习
文本生成图像
V
UCSC-VLAA
623
4
Vit H 14 CLIPA 336 Datacomp1b
Apache-2.0
CLIPA-v2模型,一种高效的对比式图文模型,专注于零样本图像分类任务。
文本生成图像
V
UCSC-VLAA
493
4
Vit H 14 CLIPA Datacomp1b
Apache-2.0
CLIPA-v2模型,一个高效的对比式图文模型,专为零样本图像分类任务设计。
文本生成图像
V
UCSC-VLAA
65
1
Vit H 14 CLIPA 336 Laion2b
Apache-2.0
CLIPA-v2模型,基于laion2B-en数据集训练,专注于零样本图像分类任务
文本生成图像
V
UCSC-VLAA
74
4
Vit Base Patch16 224 In21k
基于Transformer架构的视觉模型,通过16x16图像块处理224x224分辨率输入,在ImageNet-21k数据集上预训练
图像分类
Transformers

V
Xenova
132
3
Eva02 Enormous Patch14 Plus Clip 224.laion2b S9b B144k
MIT
基于EVA02架构的大规模视觉语言模型,支持零样本图像分类任务
文本生成图像
E
timm
12.57k
8
Eva Giant Patch14 Plus Clip 224.merged2b S11b B114k
MIT
EVA-Giant是基于CLIP架构的大规模视觉-语言模型,支持零样本图像分类任务。
文本生成图像
E
timm
1,080
1
Car Brands Classification
Apache-2.0
基于BEiT架构的预训练图像分类模型,支持越南语标签,适用于视觉任务
图像分类
Transformers

其他
C
lamnt2008
19
3
Convnextv2 Huge 1k 224
Apache-2.0
ConvNeXt V2是基于FCMAE框架预训练的纯卷积模型,在ImageNet-1K数据集上微调,适用于图像分类任务。
图像分类
Transformers

C
facebook
272
0
Convnext Large 224 22k 1k
Apache-2.0
ConvNeXT是一个纯卷积模型,受视觉Transformer设计启发,在ImageNet-22k上预训练并在ImageNet-1k上微调,性能优于传统视觉Transformer。
图像分类
Transformers

C
facebook
13.71k
3
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文