C

Clip Vit Large Patch14 336

由 openai 开发
基于Vision Transformer架构的大规模视觉语言预训练模型,支持图像与文本的跨模态理解
下载量 5.9M
发布时间 : 4/22/2022
模型介绍
内容详情
替代品

模型简介

该模型是OpenAI CLIP架构的实现,使用ViT-Large作为视觉编码器,支持336x336分辨率图像输入,能够进行图像-文本匹配和零样本分类任务

模型特点

跨模态理解
能够同时处理视觉和文本信息,建立两种模态间的语义关联
零样本学习
无需特定任务微调即可执行新类别的图像分类任务
高分辨率处理
支持336x336像素的输入分辨率,比标准CLIP模型(224x224)具有更细粒度的视觉理解能力

模型能力

图像-文本相似度计算
零样本图像分类
多模态特征提取
跨模态检索

使用案例

内容审核
违规内容检测
通过文本描述检测不符合规定的图像内容
电子商务
产品搜索
使用自然语言查询匹配相关产品图像
媒体分析
图像标注
自动生成图像的描述性文本