许可证:apache-2.0
语言:
- 英文
基础模型:
- google/siglip2-base-patch16-224
任务标签:图像分类
库名称:transformers
标签:
- 时尚
- mnist
- siglip2
数据集:
- zalando-datasets/fashion_mnist

Fashion-Mnist-SigLIP2
Fashion-Mnist-SigLIP2 是一个基于 google/siglip2-base-patch16-224 微调的单标签图像分类视觉-语言编码器模型。它采用 SiglipForImageClassification 架构,专用于将图像分类为 Fashion-MNIST 类别。

SigLIP 2:具有改进语义理解、定位和密集特征的多语言视觉-语言编码器 https://arxiv.org/pdf/2502.14786
分类报告:
精确率 召回率 F1分数 支持数
T恤/上衣 0.8142 0.9147 0.8615 6000
裤子 0.9935 0.9870 0.9902 6000
套头衫 0.8901 0.8610 0.8753 6000
连衣裙 0.9098 0.9300 0.9198 6000
外套 0.8636 0.8865 0.8749 6000
凉鞋 0.9857 0.9847 0.9852 6000
衬衫 0.8076 0.6962 0.7478 6000
运动鞋 0.9663 0.9695 0.9679 6000
包 0.9779 0.9805 0.9792 6000
短靴 0.9698 0.9700 0.9699 6000
准确率 0.9180 60000
宏平均 0.9179 0.9180 0.9172 60000
加权平均 0.9179 0.9180 0.9172 60000

该模型将图像分类为以下10个类别:
- 类别0: "T恤/上衣"
- 类别1: "裤子"
- 类别2: "套头衫"
- 类别3: "连衣裙"
- 类别4: "外套"
- 类别5: "凉鞋"
- 类别6: "衬衫"
- 类别7: "运动鞋"
- 类别8: "包"
- 类别9: "短靴"
使用Transformers🤗运行
!pip install -q transformers torch pillow gradio
import gradio as gr
from transformers import AutoImageProcessor
from transformers import SiglipForImageClassification
from transformers.image_utils import load_image
from PIL import Image
import torch
模型名称 = "prithivMLmods/Fashion-Mnist-SigLIP2"
模型 = SiglipForImageClassification.from_pretrained(模型名称)
处理器 = AutoImageProcessor.from_pretrained(模型名称)
def 时尚mnist分类(图像):
"""预测图像的时尚类别"""
图像 = Image.fromarray(图像).convert("RGB")
输入 = processor(images=图像, return_tensors="pt")
with torch.no_grad():
输出 = 模型(**输入)
logits = 输出.logits
概率 = torch.nn.functional.softmax(logits, dim=1).squeeze().tolist()
标签 = {
"0": "T恤/上衣", "1": "裤子", "2": "套头衫", "3": "连衣裙", "4": "外套",
"5": "凉鞋", "6": "衬衫", "7": "运动鞋", "8": "包", "9": "短靴"
}
预测结果 = {标签[str(i)]: round(概率[i], 3) for i in range(len(概率))}
return 预测结果
界面 = gr.Interface(
fn=时尚mnist分类,
inputs=gr.Image(type="numpy"),
outputs=gr.Label(label="预测分数"),
title="Fashion MNIST分类标签",
description="上传图像以将其分类为10个Fashion-MNIST类别之一。"
)
if __name__ == "__main__":
界面.launch()
预期用途:
Fashion-Mnist-SigLIP2 模型专为时尚图像分类设计,可将服装和鞋类物品分类到预定义的Fashion-MNIST类别中。潜在应用场景包括:
- 时尚识别: 将时尚图像分类为衬衫、运动鞋、连衣裙等常见类别。
- 电子商务应用: 帮助在线零售商组织和标记服装商品,优化搜索和推荐。
- 自动化时尚分类: 辅助自动化库存管理系统分类时尚物品。
- 教育用途: 支持AI和ML研究,探索基于视觉的时尚分类模型。