P

PE Core G14 448

由 facebook 开发
感知编码器(PE)是通过简单视觉-语言学习训练出的最先进的图像与视频理解编码器,在多种视觉任务上均达到最先进性能。
下载量 22.83k
发布时间 : 4/11/2025
模型介绍
内容详情
替代品

模型简介

感知编码器(PE)是一系列大规模视觉编码器模型,采用鲁棒的对比预训练方案并在合成对齐视频上微调,不仅在分类和检索任务上超越现有所有模型,其内部还能生成适用于下游任务的强通用特征。

模型特点

强大的零样本能力
在零样本图像分类/检索以及零样本视频分类/检索任务中均取得极强性能
内部特征通用性强
模型内部能生成适用于多种下游任务的强通用特征
困难基准表现突出
在ObjectNet和ImageNet-A等困难基准测试中表现尤为突出

模型能力

零样本图像分类
零样本图像检索
零样本视频分类
零样本视频检索
视觉特征提取
文本特征提取

使用案例

图像理解
图像分类
无需微调即可对新图像进行分类
在ImageNet-1k上达到85.4%准确率
图像检索
根据文本查询检索相关图像
在COCO文本到图像检索上达到58.1%准确率
视频理解
视频分类
无需微调即可对新视频进行分类
在Kinetics-400上达到76.9%准确率
视频检索
根据文本查询检索相关视频片段
在VTT文本到视频检索上达到51.2%准确率