V

Vit L 14 336

由 asakhare 开发
基于Vision Transformer架构的大规模视觉语言模型,支持零样本图像分类任务
下载量 20
发布时间 : 1/4/2024
模型介绍
内容详情
替代品

模型简介

该模型是OpenCLIP项目的一部分,采用ViT-L/14架构,输入分辨率为336x336,专注于跨模态视觉语言理解,特别适用于零样本图像分类场景。

模型特点

零样本学习能力
无需特定任务微调即可对新类别进行图像分类
高分辨率处理
支持336x336像素的输入分辨率,能捕捉更精细的视觉特征
跨模态理解
同时理解视觉和文本信息,实现图文匹配

模型能力

零样本图像分类
图文匹配
视觉特征提取

使用案例

内容管理
自动图像标注
为未标注图像自动生成描述性标签
提高内容检索效率
电子商务
产品分类
根据产品图片自动分类到商品目录
减少人工分类工作量