C

CLIP Convnext Large D 320.laion2B S29b B131k Ft

由 laion 开发
基于ConvNeXt-Large架构的CLIP模型,在LAION-2B数据集上训练,支持零样本图像分类和图像文本检索任务。
下载量 3,810
发布时间 : 2/11/2023
模型介绍
内容详情
替代品

模型简介

该模型采用ConvNeXt-Large作为视觉编码器,具有额外的文本深度和视觉MLP头,在320x320分辨率下进行微调,适用于零样本图像分类和跨模态检索任务。

模型特点

高分辨率处理能力
在320x320分辨率下微调,比同类模型更高效,计算资源消耗更低。
增强的视觉MLP头
视觉塔使用MLP(fc-gelu-drop-fc)头而非单一投影,提升特征表达能力。
大规模训练数据
基于LAION-2B数据集(20亿英语样本)训练,覆盖广泛视觉概念。

模型能力

零样本图像分类
图像文本检索
跨模态表示学习

使用案例

图像理解
零样本图像分类
无需微调即可对新类别图像进行分类
在ImageNet-1k上达到76.6%的零样本Top-1准确率
跨模态检索
图文检索系统
构建基于自然语言查询的图像检索系统