C

Clip Vit Base Patch16

由 Xenova 开发
OpenAI开源的CLIP模型,基于Vision Transformer架构,支持图像与文本的跨模态理解
下载量 32.99k
发布时间 : 5/19/2023
模型介绍
内容详情
替代品

模型简介

基于Vision Transformer架构的多模态模型,能够同时理解图像和文本内容,实现零样本图像分类、跨模态检索等任务

模型特点

零样本学习能力
无需特定任务训练即可直接执行图像分类任务
跨模态理解
可同时处理视觉和文本信息,计算图像-文本相似度
高效视觉编码
采用16x16分块的Vision Transformer架构处理图像输入

模型能力

零样本图像分类
图像文本匹配
跨模态嵌入计算
视觉内容理解
文本内容理解

使用案例

内容检索
图文匹配搜索
根据文本描述搜索相关图像
智能分类
动态图像分类
无需预训练即可对图像进行自定义类别分类
示例中老虎图像分类准确率达99.9%