O

Owlvit Tiny Non Contiguous Weight

由 fxmarty 开发
OWL-ViT 是一个基于视觉Transformer的开放词汇目标检测模型,能够检测图像中未在训练集中出现的类别。
下载量 337
发布时间 : 1/16/2024
模型介绍
内容详情
替代品

模型简介

OWL-ViT 结合了视觉Transformer和文本编码器,支持通过文本描述实时检测图像中的对象,无需针对特定类别进行训练。

模型特点

零样本检测
无需针对特定类别训练即可检测新对象
多模态理解
同时处理视觉和文本输入,实现语义对齐
高效架构
基于Vision Transformer的轻量级设计

模型能力

开放词汇目标检测
图像-文本对齐
零样本学习
多模态推理

使用案例

智能监控
异常物体检测
通过文本描述实时检测监控画面中的异常物体
可识别训练中未见的危险物品
零售分析
商品识别
无需重新训练即可识别新上架商品
降低商品识别系统的维护成本