V

Vision Perceiver Fourier

由 deepmind 开发
Perceiver IO是一种通用Transformer架构,可处理多种模态数据,本模型专为图像分类任务设计,在ImageNet数据集上预训练。
下载量 1,168
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型采用交叉注意力机制处理原始像素值,无需图像分块,通过固定傅里叶位置嵌入实现高效图像分类。

模型特点

模态无关架构
核心设计可应用于文本、图像、音频等多种数据类型
高效注意力机制
通过潜在向量实现计算复杂度与输入大小无关的自注意力
原始像素处理
直接处理原始像素值,无需ViT式的图像分块预处理
灵活解码
通过解码查询机制支持多种输出格式和任务

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
对输入图像进行1000类ImageNet分类
ImageNet-1k上79.0 top-1准确率
迁移学习
作为预训练模型用于下游视觉任务