P

PE Core B16 224

由 facebook 开发
感知编码器是通过简单视觉-语言学习训练的最先进的图像和视频理解编码器,在多种视觉任务上实现了最先进的性能。
下载量 9,663
发布时间 : 4/17/2025
模型介绍
内容详情
替代品

模型简介

感知编码器是一系列大规模视觉编码器模型,通过鲁棒的对比预训练方案并在合成对齐的视频上进行微调,不仅在分类和检索任务上超越现有模型,还能生成强大、通用的特征适用于下游任务。

模型特点

强大的零样本能力
在零样本图像分类和检索任务上全面表现出色,特别是在困难基准测试(如ObjectNet和ImageNet-A)上表现突出。
多任务适应性
通过内部生成的通用特征,适用于多种下游视觉任务,包括图像和视频理解。
多规模模型
提供B/16、L/14、G/14三种规模,满足不同计算资源和性能需求。
合成数据微调
在合成视频数据引擎生成的数据上进行微调,增强了模型的泛化能力。

模型能力

零样本图像分类
零样本图像检索
零样本视频分类
零样本视频检索
视觉特征提取
文本特征提取
跨模态对齐

使用案例

图像理解
图像分类
无需特定训练即可对图像进行分类
在ImageNet-1k上达到85.4%准确率
图像检索
基于文本查询检索相关图像
在COCO-T2I上达到58.1%准确率
视频理解
视频分类
无需特定训练即可对视频进行分类
在Kinetics-400上达到76.9%准确率
视频检索
基于文本查询检索相关视频片段
在VTT-T2I上达到51.2%准确率