PE-Lang-L14-448开源感知编码器 - 助力图像与视频理解，视觉任务表现出色

首页

PE Lang L14 448

由 facebook 开发

感知编码器（PE）是一种通过视觉-语言学习训练而成的先进图像与视频理解编码器，在多种视觉任务上具有最先进性能。

文本生成图像开源协议:Apache-2.0 #多模态视觉理解 #中间层特征提取 #文档OCR优化

下载量 1,087

发布时间 : 4/11/2025

模型简介

感知编码器（PE）是一系列大规模视觉编码模型，通过鲁棒的对比预训练方案并在合成对齐视频上微调，在分类和检索任务上超越现有模型，并能生成适用于下游任务的强泛化特征。

模型特点

强大的视觉理解能力

通过对比预训练和视频微调，在多种视觉任务上达到最先进性能。

泛化特征生成

模型内部能生成适用于下游任务的强泛化特征，超越传统输出层特征。

语言对齐能力

PE语言版专门针对多模态语言建模场景优化，在OCR和文档任务上表现突出。

模型能力

图像特征提取

视频理解

多模态对齐

文档理解

OCR任务处理

使用案例

文档处理

文档问答

处理Doc VQA等文档问答任务

在Doc VQA测试集上达到94.6的准确率

信息提取

从文档中提取关键信息

在InfoQA测试集上达到78.8的准确率

视觉问答

文本视觉问答

回答基于图像中文本内容的问题

在TextVQA上达到86.5的准确率

视频理解

视频内容分析

理解视频内容并回答问题

在MVBench上达到77.1的准确率

🚀 感知编码器（Perception Encoder）

感知编码器（Perception Encoder）是一种通过简单的视觉 - 语言学习训练的先进编码器，用于图像和视频理解。它在图像特征提取等视觉任务中表现出色，为相关领域的研究和应用提供了强大的支持。

🚀 快速开始

感知编码器（PE）是一个大规模视觉编码器模型家族，在各种视觉任务中具有先进的性能。通过使用强大的对比预训练方法并在合成对齐的视频上进行微调，PE不仅在分类和检索任务上优于所有现有模型，还能在内部生成强大的通用特征，适用于下游任务。PE通过对齐调整将大规模对比预训练的能力迁移到下游任务，以利用这些通用特征。

✨ 主要特性

先进性能：在多种视觉任务中表现出色，超越现有模型。
通用特征生成：内部生成强大的通用特征，适用于下游任务。
语言对齐：PE lang从PE core的中间层获取强大的语言性能，并根据PLM进一步对齐进行语言建模，适用于各种多模态语言建模用例。

📚 详细文档

模型详情

技术报告：[📃 技术报告]
GitHub仓库：[📂 GitHub]

模型开发者：Meta

感知编码器：语言（PE lang）

PE lang从PE core的中间层获取强大的语言性能，并根据PLM进一步对齐进行语言建模。我们特别调整了PE lang，使其适用于任何多模态语言建模用例，包括使用不同的语言模型解码器（如Llama / Qwen）和不同的评估设置（如原生分辨率 / 平铺）。PE lang在OCR和文档任务中表现尤其出色。

我们发布了两个PE Lang检查点，L14 - 448和G14 - 448。以下是它们在我们的基准设置下的结果，使用冻结的编码器和260万SFT数据混合，仅使用448px（即不使用平铺），并使用Llama 3.1 8B作为解码器：

编码器	检查点	文档视觉问答（验证集）	信息问答（验证集）	文本视觉问答	MVBench	感知测试（验证集）	自我图式（验证集）
L/14 448px	PE - Lang - L14 - 448	81.9	46.4	73.0	52.3	54.7	59.8
G/14 448px	PE - Lang - G14 - 448	84.4	48.3	75.2	52.4	56.0	62.0

以下是使用PE Core G与PLM - 8B进一步对齐（阶段3）的性能示例，使用36 + 1图像块 / 32视频帧，使用Llama 3.1 8B作为解码器：

模型	编码器	文档视觉问答（测试集）	信息问答（测试集）	文本视觉问答	MVBench	感知测试（测试集）	自我图式（测试集）
PLM - 8B	PE - Core - G14 - 448*	94.6	78.8	86.5	77.1	82.7	68.8

PE - Core - G14 - 448检查点使用平铺进行了进一步训练。我们将尽快发布平铺对齐的检查点。

完整的性能评估和与其他模型的公平比较请参阅论文。

💻 使用示例

模型加载代码

我们在https://github.com/facebookresearch/perception_models 中提供了模型加载代码。你可以在GitHub仓库中找到更多详细信息。

📄 许可证

本项目采用Apache - 2.0许可证。

📖 引用

如果你发现我们的代码对你的研究有用，请考虑引用：

@article{bolya2025PerceptionEncoder,
  title={Perception Encoder: The best visual embeddings are not at the output of the network},
  author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

@article{cho2025PerceptionLM,
  title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
  author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}