P

PE Lang L14 448

由 facebook 开发
感知编码器(PE)是一种通过视觉-语言学习训练而成的先进图像与视频理解编码器,在多种视觉任务上具有最先进性能。
下载量 1,087
发布时间 : 4/11/2025
模型介绍
内容详情
替代品

模型简介

感知编码器(PE)是一系列大规模视觉编码模型,通过鲁棒的对比预训练方案并在合成对齐视频上微调,在分类和检索任务上超越现有模型,并能生成适用于下游任务的强泛化特征。

模型特点

强大的视觉理解能力
通过对比预训练和视频微调,在多种视觉任务上达到最先进性能。
泛化特征生成
模型内部能生成适用于下游任务的强泛化特征,超越传统输出层特征。
语言对齐能力
PE语言版专门针对多模态语言建模场景优化,在OCR和文档任务上表现突出。

模型能力

图像特征提取
视频理解
多模态对齐
文档理解
OCR任务处理

使用案例

文档处理
文档问答
处理Doc VQA等文档问答任务
在Doc VQA测试集上达到94.6的准确率
信息提取
从文档中提取关键信息
在InfoQA测试集上达到78.8的准确率
视觉问答
文本视觉问答
回答基于图像中文本内容的问题
在TextVQA上达到86.5的准确率
视频理解
视频内容分析
理解视频内容并回答问题
在MVBench上达到77.1的准确率