C

Clip Vit Base Patch32 Stanford Cars

由 tanganke 开发
基于CLIP视觉变换器架构,在斯坦福汽车数据集上微调的视觉分类模型
下载量 4,143
发布时间 : 4/28/2024
模型介绍
内容详情
替代品

模型简介

该模型是OpenAI CLIP视觉编码器在斯坦福汽车数据集上的微调版本,专门用于汽车图像分类任务。

模型特点

专业领域微调
在斯坦福汽车数据集上微调,显著提升汽车分类准确率
高效视觉编码
基于ViT架构,使用32x32像素块处理图像
模块化设计
可单独使用视觉编码器或集成到完整CLIP模型中

模型能力

汽车图像分类
视觉特征提取
细粒度图像识别

使用案例

汽车行业
汽车型号识别
识别图像中汽车的品牌和型号
准确率达到78.19%
二手车评估
通过图像自动识别车辆特征
零售
汽车电商搜索
通过图像搜索相似车辆