C

CLIP ViT Bigg 14 Laion2b 39B B160k

由 laion 开发
基于OpenCLIP框架在LAION-2B数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
下载量 565.80k
发布时间 : 1/23/2023
模型介绍
内容详情
替代品

模型简介

这是一个基于ViT-bigG/14架构的CLIP模型,使用OpenCLIP框架在LAION-5B的20亿英语子集上训练。模型能够理解图像和文本之间的语义关系,支持零样本图像分类和跨模态检索任务。

模型特点

零样本学习能力
无需特定任务微调即可执行新类别的图像分类任务
跨模态理解
能够同时理解图像和文本的语义关系
大规模训练
在20亿规模的LAION-2B英语数据集上训练
高性能
在ImageNet-1k上达到80.1%的零样本top-1准确率

模型能力

零样本图像分类
图像文本检索
跨模态语义理解
图像特征提取

使用案例

图像理解
零样本图像分类
无需训练即可对新类别图像进行分类
在ImageNet-1k上达到80.1%准确率
图像检索
根据文本描述检索相关图像
研究应用
多模态研究
用于视觉-语言联合表示学习的研究
模型微调基础
作为下游任务的预训练模型