C

CLIP ViT B 16 Laion2b S34b B88k

由 laion 开发
基于OpenCLIP框架训练的多模态视觉语言模型,在LAION-2B英语数据集上训练完成,支持零样本图像分类任务
下载量 251.02k
发布时间 : 1/3/2023
模型介绍
内容详情
替代品

模型简介

该CLIP模型采用ViT-B/16架构,通过对比学习实现图像与文本的联合表示,可用于零样本图像分类、图文检索等跨模态任务

模型特点

大规模训练数据
使用LAION-5B的20亿英语样本子集训练,涵盖广泛视觉概念
零样本学习能力
无需微调即可直接应用于新类别识别任务
跨模态对齐
通过对比学习实现图像与文本特征的统一表示空间

模型能力

零样本图像分类
图文相似度计算
跨模态检索
图像特征提取

使用案例

计算机视觉
开放域图像分类
使用自然语言描述直接分类图像,无需预定义类别体系
ImageNet-1k上达到70.2%零样本top-1准确率
信息检索
图文交叉检索
实现文本到图像或图像到文本的双向检索