P

PE Spatial G14 448

由 facebook 开发
感知编码器(PE)是通过简单视觉语言学习训练的最先进的图像和视频理解编码器。
下载量 3,256
发布时间 : 4/11/2025
模型介绍
内容详情
替代品

模型简介

感知编码器(PE)是一系列大规模视觉编码器模型,在多种视觉任务上具有最先进的性能。通过使用鲁棒的对比预训练方案并在合成对齐视频上进行微调,PE不仅在分类和检索任务上超越了所有现有模型,还能在内部生成强大、通用的特征,这些特征可扩展用于下游任务。

模型特点

中间层特征提取
从模型中间层获取强大特征,而非输出层,提供更优的视觉嵌入
SAM优化
采用SAM 2.1基于掩码的学习策略进行优化,提升密集预测任务性能
细致的语义对应
特征空间具有细致的语义对应关系,能够识别物体部分间的关联

模型能力

图像特征提取
密集预测任务处理
语义对应分析
视觉理解

使用案例

计算机视觉
图像分类
用于图像分类任务
在多种视觉任务上具有最先进的性能
物体检测
用于密集预测任务如物体检测
在ADE20k、LVIS和COCO数据集上表现优异