🚀 感知编码器(Perception Encoder)
感知编码器(Perception Encoder)是一种通过简单的视觉 - 语言学习训练的先进编码器,用于图像和视频理解。它在图像特征提取等视觉任务中表现出色,为相关领域的研究和应用提供了强大的支持。
🚀 快速开始
感知编码器(PE)是一个大规模视觉编码器模型家族,在各种视觉任务中具有先进的性能。通过使用强大的对比预训练方法并在合成对齐的视频上进行微调,PE不仅在分类和检索任务上优于所有现有模型,还能在内部生成强大的通用特征,适用于下游任务。PE通过对齐调整将大规模对比预训练的能力迁移到下游任务,以利用这些通用特征。
✨ 主要特性
- 先进性能:在多种视觉任务中表现出色,超越现有模型。
- 通用特征生成:内部生成强大的通用特征,适用于下游任务。
- 语言对齐:PE lang从PE core的中间层获取强大的语言性能,并根据PLM进一步对齐进行语言建模,适用于各种多模态语言建模用例。
📚 详细文档
模型详情
模型开发者:Meta

感知编码器:语言(PE lang)
PE lang从PE core的中间层获取强大的语言性能,并根据PLM进一步对齐进行语言建模。我们特别调整了PE lang,使其适用于任何多模态语言建模用例,包括使用不同的语言模型解码器(如Llama / Qwen)和不同的评估设置(如原生分辨率 / 平铺)。PE lang在OCR和文档任务中表现尤其出色。
我们发布了两个PE Lang检查点,L14 - 448和G14 - 448。以下是它们在我们的基准设置下的结果,使用冻结的编码器和260万SFT数据混合,仅使用448px(即不使用平铺),并使用Llama 3.1 8B作为解码器:
以下是使用PE Core G与PLM - 8B进一步对齐(阶段3)的性能示例,使用36 + 1图像块 / 32视频帧,使用Llama 3.1 8B作为解码器:
模型 |
编码器 |
文档视觉问答(测试集) |
信息问答(测试集) |
文本视觉问答 |
MVBench |
感知测试(测试集) |
自我图式(测试集) |
PLM - 8B |
PE - Core - G14 - 448* |
94.6 |
78.8 |
86.5 |
77.1 |
82.7 |
68.8 |
- PE - Core - G14 - 448检查点使用平铺进行了进一步训练。我们将尽快发布平铺对齐的检查点。
完整的性能评估和与其他模型的公平比较请参阅论文。
💻 使用示例
模型加载代码
我们在https://github.com/facebookresearch/perception_models 中提供了模型加载代码。你可以在GitHub仓库中找到更多详细信息。
📄 许可证
本项目采用Apache - 2.0许可证。
📖 引用
如果你发现我们的代码对你的研究有用,请考虑引用:
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}