C

CLIP Convnext Base W Laion Aesthetic S13b B82k

由 laion 开发
基于LAION-Aesthetic数据集训练的ConvNeXt-Base架构CLIP模型,支持零样本图像分类和跨模态检索任务
下载量 703
发布时间 : 1/3/2023

模型简介

该模型是使用OpenCLIP框架在LAION-Aesthetic数据集上训练的ConvNeXt-Base架构CLIP模型,探索了ConvNeXt作为ViT和ResNet替代架构的可能性,在图像分类任务中表现出色。

模型特点

ConvNeXt架构创新
首批大规模训练的ConvNeXt CLIP模型,探索了该架构在CLIP任务中的潜力
增强训练策略
采用随机调整裁剪、随机擦除和随机深度等增强技术提升模型性能
高样本效率
在130亿样本训练下即达到71%+的ImageNet零样本准确率,优于ViT-B/16在相同样本量下的表现
多分辨率支持
提供256x256和320x320两种分辨率版本,适应不同应用场景需求

模型能力

零样本图像分类
图像文本匹配
跨模态检索
图像特征提取

使用案例

内容检索
图像搜索引擎
基于文本查询检索相关图像
反向图像搜索
基于图像内容查找相似或相关图像
分类系统
零样本分类
无需微调即可对新类别进行分类
ImageNet-1k上71.0%准确率
AIbase
智启未来,您的人工智能解决方案智库
简体中文