P

Prolip ViT B 16 DC 1B 12 8B

由 SanghyukChun 开发
基于DataComp 1B数据集预训练的概率语言-图像预训练(ProLIP)ViT-B/16模型
下载量 460
发布时间 : 10/18/2024
模型介绍
内容详情
替代品

模型简介

这是一个采用概率语言-图像预训练方法(ProLIP)的视觉语言模型,能够处理图像分类和跨模态检索任务,特别擅长零样本学习场景。

模型特点

概率建模
采用概率方法建模图像和文本特征分布,能够量化预测不确定性
大规模预训练
在DataComp 1B数据集上预训练,实际使用12.8亿训练样本
零样本学习能力
无需微调即可在新任务上表现出色,支持零样本图像分类和检索
不确定性感知
能够输出图像和文本特征的不确定性估计,提高预测可靠性

模型能力

零样本图像分类
跨模态检索
不确定性估计
多模态特征提取

使用案例

图像理解
零样本图像分类
无需特定训练即可对新图像进行分类
ImageNet-1k上达到74.6% top-1准确率
跨模态检索
图文检索
根据文本查询检索相关图像,或根据图像检索相关文本
零样本检索性能59.6%
鲁棒性评估
分布偏移评估
在ImageNet分布偏移数据上评估模型鲁棒性
达到63.0%准确率