V

Vit Base Patch32 Clip 224.laion400m E31

由 timm 开发
基于LAION-400M数据集训练的视觉Transformer模型,支持OpenCLIP和timm两种框架使用
下载量 10.90k
发布时间 : 10/23/2024
模型介绍
内容详情
替代品

模型简介

这是一个基于Vision Transformer架构的视觉语言模型,主要用于零样本图像分类任务。模型采用32x32的patch大小和224x224的输入分辨率,使用quickgelu激活函数优化训练。

模型特点

双框架兼容
同时支持OpenCLIP和timm框架,提供灵活的使用方式
快速激活函数
使用quickgelu激活函数优化训练过程
大规模训练数据
基于LAION-400M大规模数据集训练

模型能力

零样本图像分类
图像特征提取
跨模态表示学习

使用案例

计算机视觉
图像分类
无需特定训练即可对新类别图像进行分类
图像检索
基于文本描述检索相关图像
多模态应用
图文匹配
评估图像与文本描述的匹配程度