license: apache-2.0
library_name: perception-encoder
pipeline_tag: image-feature-extraction
模型详情
📄 技术报告
📂 Github
感知编码器(PE)是通过简单视觉语言学习训练的最先进的图像和视频理解编码器。该模型在论文"感知编码器:最佳视觉嵌入不在网络输出层"中首次提出。
模型开发者: Meta
模型概述: 感知编码器(PE)是一系列大规模视觉编码器模型,在多种视觉任务上具有最先进的性能。通过使用鲁棒的对比预训练方案并在合成对齐视频上进行微调,PE不仅在分类和检索任务上超越了所有现有模型,还能在内部生成强大、通用的特征,这些特征可扩展用于下游任务。PE解锁了大规模对比预训练通过对齐调优向下游任务迁移的能力,从而充分利用这些通用特征。
感知编码器:空间版
PE空间版同样从PE核心的中间层获取强大的空间性能,并通过简单的冻结教师自蒸馏损失对齐到末端,进一步采用新颖的SAM 2.1基于掩码的学习策略进行优化。PE空间版在密集预测任务(如检测)上表现优异。
尽管PE空间版仅使用PE核心的中间层作为教师(一个纯CLIP模型,带有全局损失)进行短时间微调,再加上少量SAM优化,但最终的特征空间非常细致且对齐良好。这里我们展示了最后一层特征的PCA映射到LCh色彩空间(详见论文):
得益于其CLIP预训练,PE空间版在物体间还具有细致的语义对应关系。这里我们再次展示PCA,但仅针对未被掩码的标记。PE空间版显示了部分之间的对应关系,如第一张图片中猫的头部、背部和腿部。此外,PE空间版还能展示更细致的对应关系,如最后两张图片中,红/蓝方向仍表示部分,而明/暗方向现在表示语义(即狗/猫品种):
目前我们发布了一个PE空间版的检查点:
编码器 |
检查点 |
ADE20k 线性探测 448px 无TTA |
LVIS Mask R-CNN 1024px 框 / 掩码 mAP |
COCO DETA 1728px 框 mAP |
G/14 448px |
PE-Spatial-G14-448 |
49.3 |
54.2 / 49.3 |
65.5 |
完整评估及与其他工作的公平比较请参阅论文。
使用方法
模型加载代码
我们在https://github.com/facebookresearch/perception_models提供了模型加载代码
更多详情请参阅GitHub仓库。
引用
如果您发现我们的代码对您的研究有帮助,请考虑引用:
@article{bolya2025PerceptionEncoder,
title={感知编码器:最佳视觉嵌入不在网络输出层},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM:开放获取的详细视觉理解数据和模型},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}