C

Clip Vit Base Patch16

由 openai 开发
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
下载量 4.6M
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

CLIP模型通过联合训练图像和文本编码器,能够在无需特定任务微调的情况下,完成多种图像分类任务。其核心创新是将自然语言作为监督信号,实现灵活的零样本迁移。

模型特点

零样本迁移能力
无需特定任务微调即可应用于新的图像分类任务,仅需提供文本标签描述
多模态对齐
通过对比学习将图像和文本映射到共享的语义空间,实现跨模态理解
鲁棒性表现
在多种分布偏移测试集上展现出优于传统监督模型的鲁棒性

模型能力

零样本图像分类
图像-文本相似度计算
跨模态检索
多模态特征提取

使用案例

学术研究
计算机视觉鲁棒性研究
用于研究模型在不同分布偏移情况下的表现
在ImageNet变体测试集上展示出更强的鲁棒性
多模态表示学习
作为基础模型研究视觉-语言联合表示
受限应用场景
受限图像搜索
在固定分类体系下的图像检索应用
需完成领域特定测试后方可部署