O

Owlvit Base Patch32

由 google 开发
OWL-ViT是一个零样本文本条件目标检测模型,可以通过文本查询搜索图像中的对象,无需特定类别的训练数据。
下载量 764.95k
发布时间 : 7/5/2022
模型介绍
内容详情
替代品

模型简介

OWL-ViT采用CLIP作为多模态骨干网络,结合ViT风格的Transformer和轻量级预测头,实现开放词汇的目标检测。它能够通过文本描述直接检测图像中的对象,支持零样本迁移。

模型特点

零样本检测能力
无需特定类别的训练数据,直接通过文本描述检测新类别对象
开放词汇支持
可以处理训练时未见过的类别名称,实现开放世界的目标检测
多模态架构
结合视觉Transformer和文本Transformer,实现图像和文本的联合理解

模型能力

零样本目标检测
文本条件图像搜索
开放词汇识别
多模态理解

使用案例

计算机视觉研究
零样本目标检测研究
研究模型在未见类别上的泛化能力
实际应用
图像内容检索
通过自然语言描述搜索图像中的特定对象
智能监控
使用自然语言查询检测监控画面中的特定目标