G

Groupvit Gcc Yfcc

由 nvidia 开发
GroupViT是一种视觉-语言模型,能够在任何给定的词汇类别上执行零样本语义分割。
下载量 3,473
发布时间 : 6/21/2022
模型介绍
内容详情
替代品

模型简介

GroupViT是一种受CLIP启发的视觉-语言模型,通过文本监督学习将图像区域分组并进行语义分割,无需像素级标注即可实现零样本迁移。

模型特点

零样本语义分割
无需像素级标注,仅通过文本监督即可学习语义分割
分层分组机制
通过分层的分组视觉变换器将图像区域逐步分组为更大、任意形状的片段
文本监督学习
在大规模图像-文本数据集上通过对比损失联合训练视觉和文本编码器

模型能力

图像语义分割
零样本迁移学习
视觉-语言理解

使用案例

计算机视觉
语义分割
对图像中的对象进行语义分割
在PASCAL VOC 2012上达到52.3% mIoU,PASCAL Context上达到22.4% mIoU