C

CLIP ViT H 14 Laion2b S32b B79k

由 laion 开发
基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索任务
下载量 1.8M
发布时间 : 9/14/2022
模型介绍
内容详情
替代品

模型简介

这是一个使用ViT-H/14架构的CLIP模型,专门在LAION-5B的20亿英文子集上训练。模型能够理解图像和文本之间的关联,实现零样本图像分类和跨模态检索。

模型特点

大规模预训练
在LAION-2B大规模多模态数据集上训练,具有强大的泛化能力
零样本能力
无需微调即可执行新类别的图像分类任务
跨模态理解
能够同时处理视觉和文本信息,实现图像与文本的关联

模型能力

零样本图像分类
图像文本检索
跨模态特征提取
图像分类微调

使用案例

内容检索
图像搜索引擎
使用自然语言查询检索相关图像
智能分类
动态图像分类
无需预先训练即可对新类别进行分类
在ImageNet-1k上达到78.0%的零样本top-1准确率
辅助创作
图像生成引导
为生成模型提供文本条件化指导