R

Resnet50 Clip Gap.cc12m

由 timm 开发
基于ResNet50架构的CLIP风格图像编码器,使用CC12M数据集训练,通过全局平均池化(GAP)提取特征
下载量 19
发布时间 : 12/26/2024
模型介绍
内容详情
替代品

模型简介

该模型是timm库中的图像特征提取模型,采用ResNet50架构并结合CLIP训练方法,专为图像表示学习优化

模型特点

CLIP风格训练
采用类似CLIP的对比学习方法训练,增强图像表示能力
全局平均池化
使用GAP(Global Average Pooling)替代传统全连接层,更适合特征提取任务
大规模预训练
在CC12M(约1200万图像-文本对)数据集上进行预训练

模型能力

图像特征提取
视觉表示学习
图像嵌入生成

使用案例

计算机视觉
图像检索
提取图像特征用于相似图像搜索
多模态学习
作为视觉编码器用于图文匹配等任务