PE - Spatial - G14 - 448 开源感知编码器 - 助力图像和视频理解应用

PE Spatial G14 448

由 facebook 开发

感知编码器（PE）是通过简单视觉语言学习训练的最先进的图像和视频理解编码器。

图像特征提取开源协议:Apache-2.0 #多任务视觉理解 #中间层特征提取 #密集预测优化

下载量 3,256

发布时间 : 4/11/2025

模型简介

感知编码器（PE）是一系列大规模视觉编码器模型，在多种视觉任务上具有最先进的性能。通过使用鲁棒的对比预训练方案并在合成对齐视频上进行微调，PE不仅在分类和检索任务上超越了所有现有模型，还能在内部生成强大、通用的特征，这些特征可扩展用于下游任务。

模型特点

中间层特征提取

从模型中间层获取强大特征，而非输出层，提供更优的视觉嵌入

SAM优化

采用SAM 2.1基于掩码的学习策略进行优化，提升密集预测任务性能

细致的语义对应

特征空间具有细致的语义对应关系，能够识别物体部分间的关联

模型能力

图像特征提取

密集预测任务处理

语义对应分析

视觉理解

使用案例

计算机视觉

图像分类

用于图像分类任务

在多种视觉任务上具有最先进的性能

物体检测

用于密集预测任务如物体检测

在ADE20k、LVIS和COCO数据集上表现优异

🚀 感知编码器 (Perception Encoder)

感知编码器（Perception Encoder，PE）是一种通过简单的视觉 - 语言学习训练的先进编码器，用于图像和视频理解。它在图像和视频理解领域表现出色，能为下游任务提供强大的通用特征。

🚀 快速开始

感知编码器（PE）是一系列大规模视觉编码器模型，在各种视觉任务中具有先进的性能。通过使用强大的对比预训练方法并在合成对齐的视频上进行微调，PE不仅在分类和检索任务上优于所有现有模型，还能在内部生成强大的通用特征，适用于下游任务。

✨ 主要特性

模型概述

模型开发者：Meta
模型优势：通过强大的对比预训练和微调，在分类和检索任务上超越现有模型，内部生成的通用特征可用于下游任务。

感知编码器：空间维度（PE Spatial）

性能提升：从PE核心的中间层获取强大的空间性能，并通过简单的冻结教师自蒸馏损失将其与末端对齐，再使用新颖的基于SAM 2.1掩码的学习策略进行进一步优化。在密集预测任务（如检测）中表现出色。
特征空间：尽管使用PE核心的中间层作为教师进行了短时间的微调，并使用SAM进行了少量优化，但得到的特征空间非常详细且对齐良好。
语义对应：由于其CLIP预训练，PE空间在对象之间具有细微的语义对应关系。

📚 详细文档

模型细节

模型架构图

PE空间的评估结果

编码器	检查点	ADE20k 线性探针 448px 无TTA	LVIS Mask R - CNN 1024px 框 / 掩码 mAP	COCO DETA 1728px 框 mAP
G/14 448px	PE - Spatial - G14 - 448	49.3	54.2 / 49.3	65.5

模型加载代码

我们在 GitHub仓库中提供了模型加载代码，你可以在该仓库中找到更多详细信息。

📄 许可证

本项目采用Apache - 2.0许可证。

📚 引用

如果你发现我们的代码对你的研究有用，请考虑引用以下文献：

@article{bolya2025PerceptionEncoder,
  title={Perception Encoder: The best visual embeddings are not at the output of the network},
  author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

@article{cho2025PerceptionLM,
  title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
  author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}