语言: 西班牙语
标签:
- sagemaker
- vit
- 图像分类
- 训练生成
许可证: apache-2.0
数据集:
- cifar10
评估指标:
- 准确率
模型索引:
- 名称: vit_base-224-in21k-ft-cifar10
结果:
- 任务:
名称: 图像分类
类型: image-classification
数据集:
名称: "Cifar10"
类型: cifar10
评估指标:
- 名称: 准确率
类型: accuracy
值: 0.97
模型 vit_base-224-in21k-ft-cifar10
用于西班牙语图像分类的微调模型
该模型使用亚马逊SageMaker和Hugging Face深度学习容器进行训练,基础模型是Vision Transformer(基础尺寸模型),这是一个类似于BERT的Transformer编码器模型,在ImageNet-21k数据集上以224x224像素的分辨率进行了监督式预训练。基础模型链接
基础模型引用
BibTeX条目和引用信息
@misc{wu2020visual,
title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision},
author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
year={2020},
eprint={2006.03677},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
数据集
数据集描述链接
CIFAR-10和CIFAR-100是8000万张微小图像数据集的标记子集,由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton收集。
CIFAR-10数据集包含60000张32x32彩色图像,分为10个类别,每个类别6000张图像。其中50000张用于训练,10000张用于测试。
数据集分为五个训练批次和一个测试批次,每个批次包含10000张图像。测试批次每个类别包含1000张随机选择的图像。训练批次包含剩余图像,顺序随机,但某些训练批次可能包含更多某一类别的图像。训练批次总共每个类别包含5000张图像。
数据集大小:
预期用途与限制
该模型用于图像分类。
超参数
{
"epochs": "5",
"train_batch_size": "32",
"eval_batch_size": "8",
"fp16": "true",
"learning_rate": "1e-05",
}
测试结果
模型应用
图像分类使用示例
from transformers import ViTFeatureExtractor, ViTModel
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
model = ViTModel.from_pretrained('edumunozsala/vit_base-224-in21k-ft-cifar10')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
由Eduardo Muñoz/@edumunozsala创建