C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Rewind

由 laion 开发
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架实现,专注于零样本图像分类任务。
下载量 63
发布时间 : 2/26/2023
模型介绍
内容详情
替代品

模型简介

这是一个大型视觉语言模型,结合了ConvNeXt-XXLarge图像编码器和文本编码器,用于零样本图像分类和图文检索任务。

模型特点

大规模ConvNeXt架构
使用847M参数的ConvNeXt-XXLarge作为图像编码器,是发布的最大ConvNeXt预训练模型。
高性能零样本分类
在ImageNet-1k上实现79.3%的top-1零样本准确率,性能介于ViT-g和ViT-G之间。
高效训练
采用大规模分布式训练,使用高达1024个GPU,全局批大小达到81920-95744。

模型能力

零样本图像分类
图文检索
图像特征提取
文本特征提取

使用案例

计算机视觉
图像分类
无需特定训练即可对图像进行分类
在ImageNet-1k上达到79.3%准确率
图文检索
根据文本描述搜索相关图像或根据图像生成描述
研究
多模态学习研究
用于研究视觉语言模型的表征学习