C

CLIP ViT B 32 Laion2b S34b B79k

由 rroset 开发
基于OpenCLIP框架在LAION-2B数据集上训练的CLIP ViT-B/32模型,支持零样本图像分类和跨模态检索任务
下载量 48
发布时间 : 6/25/2024
模型介绍
内容详情
替代品

模型简介

这是一个视觉-语言预训练模型,能够理解图像和文本之间的关联,支持零样本图像分类、图像文本检索等任务。

模型特点

零样本学习能力
无需特定任务微调即可执行新类别的图像分类
跨模态理解
能够同时处理图像和文本,理解两者之间的语义关联
大规模预训练
在LAION-2B(20亿样本)数据集上进行训练,具有强大的泛化能力

模型能力

零样本图像分类
图像文本检索
跨模态表示学习
图像特征提取

使用案例

内容检索
图像搜索
使用文本查询搜索相关图像
图像理解
零样本分类
无需训练即可对新类别图像进行分类
ImageNet-1k上66.6%的零样本top-1准确率
研究应用
跨模态研究
研究视觉和语言模态之间的关系