C

Convnext Large Mlp.clip Laion2b Augreg

由 timm 开发
基于CLIP框架的ConvNeXt-Large图像编码器,使用LAION-2B数据集训练,支持视觉特征提取
下载量 107
发布时间 : 12/24/2024
模型介绍
内容详情
替代品

模型简介

该模型是CLIP(Contrastive Language-Image Pretraining)框架中的图像编码器部分,采用ConvNeXt-Large架构,专门用于从图像中提取高级视觉特征。

模型特点

大规模预训练
使用LAION-2B大规模数据集进行预训练,具有强大的视觉特征提取能力
ConvNeXt架构
采用现代ConvNeXt架构,结合CNN和Transformer的优势
CLIP兼容
作为CLIP框架的图像编码器部分,可与文本编码器配合使用

模型能力

图像特征提取
视觉表示学习
图像-文本对齐

使用案例

计算机视觉
图像检索
基于视觉特征的相似图像搜索
视觉问答
作为多模态系统的视觉特征提取组件
多模态应用
图文匹配
计算图像与文本描述的相似度