C

CLIP Convnext Base W 320 Laion Aesthetic S13b B82k

由 laion 开发
基于ConvNeXt-Base架构的CLIP模型,在LAION-5B子集上训练,适用于零样本图像分类和图像文本检索任务。
下载量 12.67k
发布时间 : 1/3/2023
模型介绍
内容详情
替代品

模型简介

这是一个基于ConvNeXt-Base架构的CLIP模型,使用OpenCLIP在LAION-5B的子集上训练而成。模型探索了替代ViT和ResNet的架构,在模型大小和图像分辨率上具有良好的扩展性。

模型特点

ConvNeXt架构
首次大规模训练的ConvNeXt CLIP模型,探索替代ViT和ResNet的架构可能性
增强和正则化
采用随机调整裁剪、随机擦除和随机深度等增强和正则化技术提升模型性能
高分辨率训练
部分模型在320x320高分辨率下训练,提升图像识别精度
样本效率高
相比ViT-B/16模型,在更少训练样本下达到更高准确率

模型能力

零样本图像分类
图像文本检索
图像特征提取
文本特征提取

使用案例

计算机视觉
图像分类
无需微调即可对图像进行分类
ImageNet零样本top-1准确率71.7%
图像检索
根据文本描述检索相关图像
多模态研究
视觉语言对齐
研究图像和文本表示之间的对齐关系