语言: 西班牙语
标签:
- sagemaker
- vit
- 图像分类
- 训练生成
许可证: apache-2.0
数据集:
- cifar100
评估指标:
- 准确率
模型索引:
- 名称: vit_base-224-in21k-ft-cifar100
结果:
- 任务:
名称: 图像分类
类型: image-classification
数据集:
名称: "Cifar100"
类型: cifar100
评估指标:
- 名称: 准确率
类型: accuracy
值: 0.9148
模型 vit_base-224-in21k-ft-cifar100
用于西班牙语图像分类的微调模型
该模型使用亚马逊SageMaker和Hugging Face深度学习容器训练,基础模型为Vision Transformer(基础尺寸模型),这是一个类似于BERT的Transformer编码器模型,在ImageNet-21k数据集上以224x224像素分辨率进行了监督式预训练。基础模型链接
基础模型引用
BibTeX条目及引用信息
@misc{wu2020visual,
title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision},
author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
year={2020},
eprint={2006.03677},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
数据集
数据集描述链接
CIFAR-10和CIFAR-100是8000万张微小图像数据集的标记子集,由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton收集。
CIFAR-10数据集包含10个类别的60000张32x32彩色图像,每个类别6000张图像,其中50000张为训练图像,10000张为测试图像。
本数据集CIFAR-100与CIFAR-10类似,但包含100个类别,每个类别600张图像。每个类别有500张训练图像和100张测试图像。CIFAR-100的100个类别被分为20个超类。每张图像带有“细粒度”标签(所属类别)和“粗粒度”标签(所属超类)。
数据集大小:
预期用途与限制
本模型用于图像分类任务。
超参数
{
"epochs": "5",
"train_batch_size": "32",
"eval_batch_size": "8",
"fp16": "true",
"learning_rate": "1e-05",
}
测试结果
模型应用
图像分类使用示例
from transformers import ViTFeatureExtractor, ViTModel
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
model = ViTModel.from_pretrained('edumunozsala/vit_base-224-in21k-ft-cifar100')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
由Eduardo Muñoz/@edumunozsala创建