V

Vision Perceiver Learned

由 deepmind 开发
基于ImageNet预训练的通用视觉感知器模型,采用学习型位置嵌入处理图像输入
下载量 1,894
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一种可应用于任何模态的Transformer编码器,特别针对图像分类任务设计,能够直接从像素值学习图像表示

模型特点

模态无关架构
可应用于文本、图像、音频、视频等多种数据模态
高效注意力机制
使用潜在向量降低计算复杂度,使注意力机制不受输入大小限制
学习型位置嵌入
仅使用学习的一维位置嵌入,不依赖图像二维结构的先验知识
灵活解码机制
可通过解码查询机制将潜在向量解码为任意大小和语义的输出

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
对输入图像进行1000类别的分类
在ImageNet-1k上达到72.7%的Top-1准确率
特征提取
提取图像特征用于下游任务