C

CLIP ViT B 32 256x256 DataComp S34b B86k

由 laion 开发
这是一个基于DataComp-1B数据集训练的CLIP ViT-B/32模型,使用OpenCLIP框架在256x256分辨率下完成训练,主要用于零样本图像分类和图文检索任务。
下载量 4,332
发布时间 : 9/12/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于DataComp-1B数据集训练的视觉语言模型,能够执行零样本图像分类和图文检索等任务。

模型特点

大规模数据训练
使用DataComp-1B数据集的14亿样本进行训练,具有强大的泛化能力。
零样本学习能力
无需特定任务微调即可执行多种图像分类任务。
高分辨率支持
支持256x256分辨率的图像输入,能捕捉更丰富的视觉细节。

模型能力

零样本图像分类
图像文本检索
跨模态理解

使用案例

图像理解
零样本图像分类
无需训练即可对图像进行分类
在ImageNet-1k上达到72.7%的零样本top-1准确率
图文检索
根据文本查询检索相关图像或根据图像检索相关文本
在COCO数据集上实现64.4%的图像检索recall@5和80.7%的文本检索recall@5
研究
跨模态学习研究
研究视觉和语言模态之间的关联