C

CLIP Convnext Base W Laion2b S13b B82k

由 laion 开发
基于ConvNeXt-Base架构的CLIP模型,在LAION-5B子集上训练,支持零样本图像分类和图文检索任务
下载量 4,522
发布时间 : 1/3/2023
模型介绍
内容详情
替代品

模型简介

该模型是使用OpenCLIP框架训练的CLIP模型变体,采用ConvNeXt-Base作为图像编码器,在LAION-5B数据集子集上训练,具有优秀的零样本图像分类能力

模型特点

ConvNeXt架构
采用ConvNeXt-Base作为图像编码器,探索替代ViT和ResNet的CLIP模型架构
增强正则化
使用随机调整裁剪、随机擦除和随机深度等增强技术提高模型性能
高分辨率训练
在320x320高分辨率下训练,提升图像识别能力
大规模训练
在LAION-5B数据集子集上训练13B样本,具有优秀的样本效率

模型能力

零样本图像分类
图像文本检索
跨模态表示学习

使用案例

计算机视觉
图像分类
无需微调即可对图像进行分类
ImageNet零样本准确率71.7%
图文检索
实现图像到文本或文本到图像的检索
研究
多模态研究
用于研究视觉语言联合表示学习