C

CLIP ViT B 32 Laion2b S34b B79k

由 laion 开发
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
下载量 1.1M
发布时间 : 9/14/2022
模型介绍
内容详情
替代品

模型简介

该模型是CLIP架构的变体,使用ViT-B/32视觉编码器,在LAION-5B的20亿英语样本子集上训练。主要用于研究社区探索零样本图像分类和跨模态理解任务。

模型特点

零样本学习能力
无需特定任务微调即可执行图像分类任务
跨模态理解
能够同时处理视觉和文本信息,实现图像与文本的关联
大规模训练数据
使用LAION-2B数据集训练,包含20亿英语图文对

模型能力

零样本图像分类
图像-文本匹配
跨模态检索
图像特征提取

使用案例

研究应用
零样本图像分类研究
探索模型在未见类别上的分类能力
在ImageNet-1k上达到66.6%的零样本top-1准确率
跨模态理解研究
研究视觉与语言模态间的关联机制
潜在应用
图像检索系统
基于文本描述检索相关图像
内容审核辅助
识别图像中的特定内容