图像特征提取

# 图像特征提取

Openvision Vit Base Patch8 160

OpenVision-ViT-Tiny 是一个全开放、高性价比的先进视觉编码器，属于 OpenVision 家族的一部分，专注于多模态学习。

Openvision Vit Small Patch8 384

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Openvision Vit Small Patch16 224

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

Openvision Vit Tiny Patch16 160

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Aimv2 1b Patch14 224.apple Pt

AIM-v2是一个基于timm库的图像编码器模型，具有10亿参数规模，适用于图像特征提取任务。

Sam2 Hiera Tiny.fb R896 2pt1

基于HieraDet图像编码器的SAM2模型，专注于图像特征提取任务。

Sam2 Hiera Small.fb R896

基于HieraDet图像编码器的SAM2模型，专注于图像特征提取任务。

Sam2 Hiera Base Plus.fb R896 2pt1

基于HieraDet图像编码器的SAM2模型权重，专注于图像特征提取任务

Sam2 Hiera Base Plus.fb R896

基于HieraDet图像编码器的SAM2模型，专注于图像特征提取任务。

Resnet101 Clip Gap.openai

基于CLIP框架的ResNet101图像编码器，通过全局平均池化(GAP)提取图像特征

Dinov2 With Registers Base Imagenet1k 1 Layer

基于Transformer架构的视觉变换器模型，通过DINOv2方法训练并引入寄存器机制，解决了传统ViT模型的伪影问题

Ijepa Vith16 1k

I-JEPA是一种自监督学习方法，通过图像部分表征预测同一图像其他部分的表征，无需依赖预设的手工数据变换或像素级细节填充。

Ijepa Vith14 22k

I-JEPA是一种自监督学习方法，通过图像部分表征预测同一图像其他部分的表征，无需依赖预设的手工数据变换或像素级细节填充。

Mambavision T2 1K

首个结合Mamba与Transformer优势的计算机视觉混合模型，通过重新设计Mamba公式增强视觉特征建模能力，并在Mamba架构中融入自注意力模块提升长程空间依赖建模。

Sscd Copy Detection

SSCD 是一个用于图像复制检测的深度学习模型，能够提取图像特征并进行相似度比较。

Vit Large Patch16 224.orig In21k

基于Vision Transformer（ViT）的图像分类模型，由Google Research在JAX框架下使用ImageNet-21k预训练，后移植到PyTorch。适用于特征提取和微调场景。

Vit Base Patch16 224.orig In21k

基于Vision Transformer的图像分类模型，在ImageNet-21k上预训练，适用于特征提取和微调

Eva02 Tiny Patch14 224.mim In22k

EVA02是一个视觉Transformer模型，通过掩码图像建模在ImageNet-22k上预训练，适用于图像分类和特征提取任务。

Eva02 Small Patch14 224.mim In22k

EVA02特征/表示模型，通过掩码图像建模在ImageNet-22k上预训练，适用于图像分类和特征提取任务。

Eva02 Base Patch14 224.mim In22k

EVA02基础版视觉表示模型，通过掩码图像建模在ImageNet-22k上预训练，适用于图像分类和特征提取任务。

Face Discriminator 2

基于ResNet-50微调的人脸分类模型，在评估集上准确率达到94.16%

Google Vit Base Patch16 224 Cartoon Face Recognition

基于Google Vision Transformer (ViT)架构微调的卡通人脸识别模型，在图像分类任务上表现优异

Convnextv2 Nano.fcmae

ConvNeXt-V2自监督特征表示模型，采用全卷积掩码自编码器框架(FCMAE)进行预训练，适用于图像分类和特征提取任务。

Vit Small Patch16 224.dino

基于视觉Transformer（ViT）的图像特征模型，采用自监督DINO方法训练，适用于图像分类和特征提取任务。

Vit Small Patch8 224.dino

基于视觉Transformer(ViT)的自监督图像特征提取模型，采用DINO方法训练

Vit Large Patch32 224.orig In21k

基于Vision Transformer (ViT)架构的图像分类模型，在ImageNet-21k数据集上预训练，适用于特征提取和微调场景。

Vit Base Patch16 224.dino

基于自监督DINO方法训练的Vision Transformer（ViT）图像特征模型，适用于图像分类和特征提取任务。

Vit Base Patch8 224.dino

基于自监督DINO方法训练的视觉Transformer（ViT）图像特征模型，适用于图像分类和特征提取任务。

Resnet34 Sketch Classifier

基于ResNet-34架构的草图分类器，在TU-Berlin数据集上进行了微调训练，适用于草图识别和分类任务。

使用DINO自监督学习方法预训练的ResNet-50模型，适用于视觉特征提取任务

该视觉Transformer模型采用MSN方法预训练，在少样本场景下表现优异，适用于图像分类等任务

RegNet是一种通过神经架构搜索设计的图像分类模型，在imagenet-1k数据集上训练。

基于imagenet-1k训练的RegNet模型，通过神经架构搜索设计的高效视觉模型

Vit Base Patch32 224 In21k

该视觉变换器（ViT）模型在ImageNet-21k数据集上以224x224分辨率进行了预训练，适用于图像分类任务。

Vit Huge Patch14 224 In21k

基于ImageNet-21k预训练的视觉Transformer模型，采用超大尺寸架构，适用于图像分类等视觉任务。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24