C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup

由 laion 开发
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架训练,是首个非ViT图像塔CLIP模型实现>79% ImageNet top-1零样本准确率
下载量 9,412
发布时间 : 2/26/2023
模型介绍
内容详情
替代品

模型简介

该模型是使用ConvNeXt-XXLarge架构的CLIP模型,专门用于零样本图像分类和图像文本检索任务。它通过模型汤方法结合了两个训练阶段的权重,在256x256分辨率下表现出色。

模型特点

大规模ConvNeXt架构
采用847M参数的ConvNeXt-XXLarge作为图像塔,是目前发布的最大ConvNeXt预训练模型
高性能零样本分类
在ImageNet上达到79.4%的零样本top-1准确率,超越许多ViT架构模型
高效计算
在256x256分辨率下,计算效率介于ViT-g和ViT-G之间,但资源消耗显著低于后者
模型汤集成
通过平均两个不同训练阶段的模型权重,进一步提升性能

模型能力

零样本图像分类
图像文本检索
图像特征提取
文本特征提取

使用案例

计算机视觉
零样本图像分类
无需特定训练即可对图像进行分类
在ImageNet上达到79.4% top-1准确率
图像检索
根据文本描述检索相关图像
多模态研究
视觉语言对齐研究
研究图像和文本表示之间的对齐关系