vit_base-224-in21k-ft-cifar100开源图像分类模型 - 精准识别图像，准确率超91%！

首页

Vit Base 224 In21k Ft Cifar100

由 edumunozsala 开发

基于Vision Transformer架构的图像分类模型，在CIFAR-100数据集上微调，准确率达91.48%

图像分类

Transformers

西班牙语开源协议:Apache-2.0 #高精度图像分类 #ViT微调模型 #CIFAR100专用

下载量 357

发布时间 : 6/11/2022

模型简介

该模型使用Vision Transformer架构，在ImageNet-21k上预训练后在CIFAR-100数据集上进行微调，专门用于图像分类任务。

模型特点

高准确率

在CIFAR-100测试集上达到91.48%的准确率

基于Transformer架构

采用Vision Transformer架构，适用于图像处理任务

预训练+微调

先在ImageNet-21k上预训练，再在CIFAR-100上微调

模型能力

图像分类

特征提取

使用案例

计算机视觉

物体识别

识别图像中的物体类别

在CIFAR-100的100个类别上表现良好

图像分类系统

构建自动图像分类系统

可用于产品分类、内容审核等场景

🚀 模型 vit_base-224-in21k-ft-cifar100

本模型是一个用于图像分类的微调模型，基于 Vision Transformer 架构，在 CIFAR-100 数据集上进行微调，能有效提升图像分类的准确性。

🚀 快速开始

该模型使用 Amazon SageMaker 和 Hugging Face 深度学习容器进行训练。基础模型是 Vision Transformer（基础大小模型），它是一个基于 Transformer 编码器的模型（类似 BERT），在大量图像集合（即 ImageNet-21k）上以监督方式进行预训练，分辨率为 224x224 像素。基础模型链接

✨ 主要特性

微调优化：在 CIFAR-100 数据集上进行微调，提升图像分类性能。
强大基础：基于在大规模图像数据集上预训练的 Vision Transformer 模型。
高精度：在测试中达到了 0.9148 的准确率。

📦 安装指南

文档未提供具体安装步骤，可参考相关框架（如 Hugging Face Transformers）的安装说明。

💻 使用示例

基础用法

from transformers import ViTFeatureExtractor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
model = ViTModel.from_pretrained('edumunozsala/vit_base-224-in21k-ft-cifar100')
inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

📚 详细文档

基础模型引用

BibTeX 条目和引用信息

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

数据集

数据集描述链接

CIFAR-10 和 CIFAR-100 是 8000 万张微小图像数据集的带标签子集，由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 收集。

CIFAR-10 数据集由 10 个类别共 60000 张 32x32 彩色图像组成，每个类别有 6000 张图像，其中 50000 张用于训练，10000 张用于测试。CIFAR-100 数据集与 CIFAR-10 类似，但有 100 个类别，每个类别包含 600 张图像，每个类别有 500 张训练图像和 100 张测试图像。CIFAR-100 中的 100 个类别被分为 20 个超类。每张图像都带有一个“精细”标签（所属类别）和一个“粗略”标签（所属超类）。

数据集大小：

训练数据集：50000
测试数据集：10000

预期用途和限制

本模型旨在用于图像分类任务。

超参数

{
    "epochs": "5",
    "train_batch_size": "32",    
    "eval_batch_size": "8",
    "fp16": "true",
    "learning_rate": "1e-05"
}

测试结果

准确率 = 0.9148

📄 许可证

本模型使用 Apache-2.0 许可证。

🔗 模型信息

属性	详情
模型类型	微调的 Vision Transformer 图像分类模型
训练数据	CIFAR-100 数据集
指标	准确率

👨‍💻 作者信息

由 Eduardo Muñoz/@edumunozsala 创建。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文