C

CLIP ViT B 16 DataComp.XL S13b B90k

由 laion 开发
这是一个使用OpenCLIP在DataComp-1B数据集上训练的CLIP ViT-B/16模型,主要用于零样本图像分类和图像文本检索。
下载量 4,461
发布时间 : 5/15/2023
模型介绍
内容详情
替代品

模型简介

该模型基于CLIP架构,通过大规模多模态训练实现零样本图像分类能力,支持跨模态检索任务。

模型特点

大规模多模态训练
使用DataComp-1B数据集的14亿样本进行训练,具有强大的泛化能力。
零样本学习能力
无需特定任务微调即可执行多种视觉任务,如零样本图像分类。
跨模态理解
能够理解图像和文本之间的语义关联,支持跨模态检索任务。

模型能力

零样本图像分类
图像文本检索
跨模态理解
图像特征提取

使用案例

计算机视觉
零样本图像分类
无需训练即可对图像进行分类,支持自定义分类体系。
在ImageNet-1k上达到73.5%的零样本top-1准确率
图像检索
根据文本描述检索相关图像,或根据图像检索相关文本。
研究应用
多模态研究
用于研究视觉语言模型的表征学习与跨模态理解。