V

Vision Perceiver Conv

由 deepmind 开发
基于ImageNet预训练的通用视觉感知器模型,采用卷积预处理和Transformer架构,支持图像分类任务
下载量 7,127
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

感知器IO是一种跨模态Transformer模型,通过潜在向量机制实现与输入尺寸无关的计算效率,特别适合处理高分辨率图像

模型特点

模态无关架构
采用潜在向量机制,使模型可应用于文本、图像、音频等多种数据类型
高效计算
自注意力计算仅依赖固定数量的潜在向量,不受输入数据规模影响
像素级处理
直接处理原始像素值,无需像ViT那样进行图像分块预处理
灵活解码
通过解码查询机制可输出任意尺寸和语义的结构化数据

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
图像分类
对输入图像进行1000类别的分类识别
ImageNet-1k上达到82.1% Top-1准确率
特征提取
提取图像特征用于下游任务微调