license: apache-2.0
library_name: perception-encoder
pipeline_tag: image-feature-extraction
模型详情
📄 技术报告
🐱 GitHub
感知编码器(Perception Encoder,PE)是一种通过简单视觉-语言学习训练而成的先进图像与视频理解编码器。该模型在论文《感知编码器:最佳视觉嵌入不在网络输出层》中首次提出。
开发机构:Meta
模型概览:感知编码器(PE)是一系列在多种视觉任务上具有最先进性能的大规模视觉编码模型。通过采用鲁棒的对比预训练方案并在合成对齐视频上微调,PE不仅在分类和检索任务上超越现有所有模型,其内部还能生成适用于下游任务的强泛化特征。PE解锁了大规模对比预训练通过对齐调优向下游任务迁移的能力,从而充分利用这些泛化特征。
感知编码器:语言版
PE语言版从PE核心模型的中间层获取强大的语言性能,并遵循PLM进一步对齐语言建模。我们专门调整了PE语言版以适配任何多模态语言建模场景,包括使用不同语言模型解码器(如Llama/Qwen)和不同评估设置(如原生分辨率/分块处理)。PE语言版在OCR和文档任务上表现尤为突出。
我们发布了两个PE语言版检查点:L14-448和G14-448。以下是它们在冻结编码器、使用2.6M SFT数据混合、仅448px分辨率(即无分块处理)和Llama 3.1 8B解码器的基准测试结果:
编码器 |
检查点 |
Doc VQA (验证集) |
InfoQA (验证集) |
TextVQA |
MVBench |
PerceptionTest (验证集) |
EgoSchema (验证集) |
L/14 448px |
PE-Lang-L14-448 |
81.9 |
46.4 |
73.0 |
52.3 |
54.7 |
59.8 |
G/14 448px |
PE-Lang-G14-448 |
84.4 |
48.3 |
75.2 |
52.4 |
56.0 |
62.0 |
以下是通过PLM-8B(第三阶段)进一步对齐PE Core G模型,使用36+1图像分块/32视频帧配合Llama 3.1 8B解码器可获得的性能示例:
模型 |
编码器 |
Doc VQA (测试集) |
InfoQA (测试集) |
TextVQA |
MVBench |
PerceptionTest (测试集) |
EgoSchema (测试集) |
PLM-8B |
PE-Core-G14-448* |
94.6 |
78.8 |
86.5 |
77.1 |
82.7 |
68.8 |
* PE-Core-G14-448检查点经过分块训练。我们将很快发布分块对齐的检查点。
完整性能评估及与其他模型的公平对比请参阅论文。
使用方法
模型加载代码
模型加载代码详见:https://github.com/facebookresearch/perception_models
更多细节请访问GitHub仓库。
引用
若我们的代码对您的研究有所帮助,请考虑引用:
@article{bolya2025PerceptionEncoder,
title={感知编码器:最佳视觉嵌入不在网络输出层},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM:开放获取的精细视觉理解数据与模型},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}