C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg

由 laion 开发
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架实现,是首个非ViT架构达到>79% ImageNet零样本准确率的CLIP模型
下载量 6,616
发布时间 : 2/26/2023
模型介绍
内容详情
替代品

模型简介

该模型是CLIP架构的变体,使用ConvNeXt-XXLarge作为图像编码器,在LAION-2B数据集上训练,支持零样本图像分类和图文检索任务

模型特点

大规模ConvNeXt架构
使用847M参数的ConvNeXt-XXLarge作为图像编码器,是当前最大的ConvNeXt预训练模型
高性能零样本分类
在ImageNet上达到79.1%的零样本Top-1准确率,性能介于ViT-g和ViT-G之间
优化的训练过程
采用分阶段训练策略,使用高达95744的全局批次大小,结合bfloat16精度和特殊优化策略
图像尺寸适应性
相比ViT架构,在更大输入分辨率下具有更好的计算效率和性能表现

模型能力

零样本图像分类
图文相似度计算
跨模态检索
图像特征提取
文本特征提取

使用案例

计算机视觉
图像分类
无需微调即可对任意类别图像进行分类
ImageNet上79.1% Top-1准确率
图像检索
基于文本描述检索相关图像
多模态研究
视觉语言对齐
研究图像和文本表示空间的对齐