V

Vit B 16 Aion400m E32 1finetuned 1

由 Albe-njupt 开发
基于OpenCLIP框架的视觉Transformer模型,针对零样本图像分类任务进行微调
下载量 18
发布时间 : 3/4/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于Vision Transformer (ViT)架构的视觉语言模型,使用AION-400M数据集进行训练和微调,擅长零样本图像分类任务。

模型特点

零样本学习能力
无需特定类别训练即可对新类别进行图像分类
大规模预训练
基于AION-400M大规模数据集进行预训练和微调
视觉语言对齐
通过对比学习实现图像和文本特征的联合嵌入

模型能力

零样本图像分类
图像-文本匹配
跨模态检索

使用案例

内容分类
社交媒体内容自动标记
自动为上传的图片添加相关标签
提高内容分类效率,减少人工标注成本
电子商务
商品图像自动分类
根据商品图片自动归类到相应品类
提升商品上架效率,优化搜索体验