P

PE Core L14 336

由 facebook 开发
Meta开发的大规模视觉编码器模型,通过对比预训练和合成视频数据微调,在各类视觉任务中达到最先进性能
下载量 11.52k
发布时间 : 4/11/2025
模型介绍
内容详情
替代品

模型简介

感知编码器是一系列先进的图像与视频理解编码器,采用鲁棒的对比预训练方案并在合成对齐视频上微调,在分类和检索任务上超越现有模型,其内部生成的特征具有强大的通用性

模型特点

内部特征通用性
模型内部生成的特征具有强大通用性,可扩展至多种下游任务
对齐调优技术
通过对齐调优释放大尺度对比预训练的迁移潜力,充分利用通用特征
多尺度性能
提供B/16、L/14、G/14三种规模,满足不同计算需求

模型能力

零样本图像分类
零样本视频分类
图像-文本检索
视频-文本检索
跨模态特征提取

使用案例

视觉内容理解
图像分类
无需微调即可对图像进行准确分类
在ImageNet-1k上达到85.4%准确率
跨模态检索
实现图像/视频与文本之间的高效检索
在COCO-T2I上达到58.1%召回率
视频分析
视频动作识别
识别视频中的动作类别
在Kinetics-400上达到76.9%准确率