clip-vit-base-patch32_stanford-cars开源视觉分类模型

首页

Clip Vit Base Patch32 Stanford Cars

由 tanganke 开发

基于CLIP视觉变换器架构，在斯坦福汽车数据集上微调的视觉分类模型

图像分类

Transformers

#汽车图像识别 #ViT微调 #CLIP视觉编码

下载量 4,143

发布时间 : 4/28/2024

模型简介

该模型是OpenAI CLIP视觉编码器在斯坦福汽车数据集上的微调版本，专门用于汽车图像分类任务。

模型特点

专业领域微调

在斯坦福汽车数据集上微调，显著提升汽车分类准确率

高效视觉编码

基于ViT架构，使用32x32像素块处理图像

模块化设计

可单独使用视觉编码器或集成到完整CLIP模型中

模型能力

汽车图像分类

视觉特征提取

细粒度图像识别

使用案例

汽车行业

汽车型号识别

识别图像中汽车的品牌和型号

准确率达到78.19%

二手车评估

通过图像自动识别车辆特征

零售

汽车电商搜索

通过图像搜索相似车辆

属性	详情
基础模型	openai/clip-vit-base-patch32
训练数据集	tanganke/stanford_cars
评估指标	准确率

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Clip Vit Base Patch32 Stanford Cars

模型简介

模型特点

模型能力

使用案例

🚀 视觉模型微调项目

📦 模型信息

📚 模型详情

🔧 训练详情

📊 评估结果

💻 使用示例

基础用法

高级用法