O

Owlvit Large Patch14

由 google 开发
OWL-ViT是一个零样本文本条件目标检测模型,可通过文本查询检索图像中的对象。
下载量 25.01k
发布时间 : 7/5/2022
模型介绍
内容详情
替代品

模型简介

OWL-ViT使用CLIP作为多模态骨干网络,结合视觉变换器和文本编码器,实现开放词汇的目标检测。

模型特点

零样本检测能力
无需特定类别训练即可检测新对象,仅需文本描述即可执行检测任务
多模态架构
结合视觉变换器和文本编码器,实现图像与文本的联合理解
开放词汇分类
通过动态替换分类层权重支持任意文本描述的类别识别

模型能力

文本条件目标检测
开放词汇对象识别
多模态图像理解

使用案例

计算机视觉研究
零样本目标检测研究
探索模型在未见类别上的检测能力
跨学科应用
特殊对象识别
在医疗、工业等领域识别训练数据中罕见的对象