基于google/siglip2-base-patch16-224微调的食物图像分类模型,可识别101种流行菜肴
下载量 158
发布时间 : 4/4/2025
模型介绍
内容详情
替代品
模型简介
该模型使用SiglipForImageClassification架构,在Food-101数据集上训练,专门用于食物图像分类任务。
模型特点
高精度食物识别
在101类食物分类任务上达到89.73%的准确率
基于SigLIP2架构
采用谷歌先进的SigLIP2视觉架构,具有强大的特征提取能力
广泛的食物类别覆盖
支持101种国际流行菜肴的分类识别
模型能力
食物图像分类
多类别图像识别
菜品识别
使用案例
餐饮行业
智能菜单系统
自动识别顾客拍摄的菜品照片并匹配菜单
提高点餐效率和准确性
营养分析
通过识别食物图片估算餐食营养成分
辅助健康饮食管理
社交媒体
美食内容自动标记
为社交媒体上的食物图片自动添加标签
提升内容分类和搜索体验
许可证:apache-2.0
数据集:
- ethz/food101
语言: - en
基础模型: - google/siglip2-base-patch16-224
任务标签:图像分类
库名称:transformers
标签: - 食品
- '101'
- siglip2
- vit
- 生物学
Food-101-93M
Food-101-93M 是一个基于 google/siglip2-base-patch16-224 微调的图像分类模型,采用 SiglipForImageClassification 架构。该模型训练用于将食物图像分类为101种流行菜肴之一,数据源自 Food-101数据集。
分类报告:
精确率 召回率 F1分数 支持数
苹果派 0.8399 0.8253 0.8325 750
婴儿背肋排 0.9445 0.8853 0.9140 750
果仁蜜饼 0.9736 0.9347 0.9537 750
生牛肉薄片 0.9079 0.9200 0.9139 750
鞑靼牛肉 0.8486 0.8293 0.8388 750
甜菜沙拉 0.8649 0.8707 0.8678 750
贝涅饼 0.8961 0.9080 0.9020 750
石锅拌饭 0.9361 0.9373 0.9367 750
面包布丁 0.7979 0.8000 0.7989 750
早餐墨西哥卷饼 0.8784 0.9053 0.8917 750
意式烤面包 0.8672 0.8533 0.8602 750
凯撒沙拉 0.9444 0.9293 0.9368 750
奶油甜馅煎饼卷 0.9263 0.9547 0.9402 750
卡普里沙拉 0.9110 0.9280 0.9194 750
胡萝卜蛋糕 0.9068 0.8040 0.8523 750
酸橘汁腌鱼 0.8375 0.8453 0.8414 750
芝士蛋糕 0.8225 0.8093 0.8159 750
奶酪拼盘 0.9627 0.9627 0.9627 750
咖喱鸡 0.8970 0.8827 0.8898 750
鸡肉墨西哥薄饼 0.9254 0.9093 0.9173 750
鸡翅 0.9512 0.9360 0.9435 750
巧克力蛋糕 0.7958 0.8107 0.8032 750
巧克力慕斯 0.6947 0.7827 0.7361 750
西班牙油条 0.9440 0.9440 0.9440 750
蛤蜊浓汤 0.8883 0.9120 0.9000 750
俱乐部三明治 0.9396 0.9133 0.9263 750
蟹肉饼 0.9185 0.8720 0.8947 750
焦糖布丁 0.9141 0.9227 0.9184 750
法式火腿奶酪三明治 0.9106 0.8960 0.9032 750
纸杯蛋糕 0.8986 0.9333 0.9156 750
魔鬼蛋 0.9787 0.9813 0.9800 750
甜甜圈 0.8893 0.8787 0.8840 750
饺子 0.9212 0.8880 0.9043 750
毛豆 0.9960 0.9920 0.9940 750
班尼迪克蛋 0.9207 0.9440 0.9322 750
法式蜗牛 0.8709 0.8907 0.8807 750
法拉费 0.8945 0.8933 0.8939 750
菲力牛排 0.7598 0.7467 0.7532 750
炸鱼薯条 0.9454 0.9467 0.9460 750
鹅肝 0.6659 0.8027 0.7279 750
炸薯条 0.9447 0.9333 0.9390 750
法式洋葱汤 0.8667 0.9187 0.8919 750
法式吐司 0.8890 0.8760 0.8825 750
炸鱿鱼 0.9448 0.9133 0.9288 750
炒饭 0.9325 0.9213 0.9269 750
冷冻酸奶 0.8716 0.9507 0.9094 750
蒜香面包 0.9103 0.8800 0.8949 750
意式土豆团子 0.8554 0.8280 0.8415 750
希腊沙拉 0.9203 0.9240 0.9222 750
烤奶酪三明治 0.8523 0.8773 0.8647 750
烤三文鱼 0.8463 0.8960 0.8705 750
鳄梨酱 0.9537 0.9347 0.9441 750
煎饺 0.8970 0.9173 0.9071 750
汉堡 0.8899 0.8947 0.8923 750
酸辣汤 0.9439 0.9413 0.9426 750
热狗 0.8859 0.9320 0.9084 750
墨西哥煎蛋 0.8465 0.8827 0.8642 750
鹰嘴豆泥 0.9394 0.9093 0.9241 750
冰淇淋 0.8633 0.8507 0.8570 750
千层面 0.8780 0.8733 0.8757 750
龙虾浓汤 0.8952 0.9107 0.9028 750
龙虾卷三明治 0.9664 0.9573 0.9618 750
芝士通心粉 0.9273 0.9013 0.9141 750
马卡龙 0.9892 0.9747 0.9819 750
味噌汤 0.9565 0.9667 0.9615 750
贻贝 0.9602 0.9640 0.9621 750
玉米片 0.9337 0.9387 0.9362 750
煎蛋卷 0.8889 0.8960 0.8924 750
洋葱圈 0.9493 0.9493 0.9493 750
牡蛎 0.9808 0.9533 0.9669 750
泰式炒河粉 0.9188 0.9507 0.9345 750
西班牙海鲜饭 0.9352 0.9240 0.9296 750
薄煎饼 0.9277 0.9067 0.9171 750
意式奶油布丁 0.8056 0.8507 0.8275 750
北京烤鸭 0.8529 0.9120 0.8814 750
越南河粉 0.9746 0.9227 0.9479 750
披萨 0.9512 0.9360 0.9435 750
猪排 0.8085 0.7373 0.7713 750
肉汁奶酪薯条 0.9424 0.9387 0.9405 750
肋眼牛排 0.9106 0.8147 0.8600 750
手撕猪肉三明治 0.8887 0.9053 0.8970 750
拉面 0.8986 0.9213 0.9098 750
意式馄饨 0.8532 0.8293 0.8411 750
红丝绒蛋糕 0.9330 0.8907 0.9113 750
意大利调味饭 0.8809 0.8680 0.8744 750
萨莫萨三角饺 0.9153 0.9227 0.9190 750
刺身 0.9248 0.9187 0.9217 750
扇贝 0.8564 0.8507 0.8535 750
海藻沙拉 0.9597 0.9533 0.9565 750
虾仁玉米粥 0.8995 0.8947 0.8971 750
意大利肉酱面 0.9667 0.9667 0.9667 750
奶油培根意面 0.9601 0.9627 0.9614 750
春卷 0.9045 0.9467 0.9251 750
牛排 0.6311 0.7027 0.6650 750
草莓酥饼 0.8832 0.8467 0.8645 750
寿司 0.9204 0.8947 0.9074 750
墨西哥卷饼 0.9225 0.8893 0.9056 750
章鱼烧 0.9419 0.9507 0.9463 750
提拉米苏 0.9074 0.8627 0.8845 750
金枪鱼鞑靼 0.7691 0.7773 0.7732 750
华夫饼 0.9629 0.9347 0.9486 750
准确率 0.8973 75750
宏平均 0.8987 0.8973 0.8977 75750
加权平均 0.8987 0.8973 0.8977 75750
该模型将图像分类为101种食品类别,例如 寿司
、汉堡
、华夫饼
、泰式炒河粉
等。
使用Transformers运行 🤗
!pip install -q transformers torch pillow gradio
import gradio as gr
from transformers import AutoImageProcessor, SiglipForImageClassification
from PIL import Image
import torch
# 加载模型和处理器
model_name = "prithivMLmods/Food-101-93M"
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)
# Food-101标签
labels = {
"0": "苹果派", "1": "婴儿背肋排", "2": "果仁蜜饼", "3": "生牛肉薄片", "4": "鞑靼牛肉",
"5": "甜菜沙拉", "6": "贝涅饼", "7": "石锅拌饭", "8": "面包布丁", "9": "早餐墨西哥卷饼",
"10": "意式烤面包", "11": "凯撒沙拉", "12": "奶油甜馅煎饼卷", "13": "卡普里沙拉", "14": "胡萝卜蛋糕",
"15": "酸橘汁腌鱼", "16": "芝士蛋糕", "17": "奶酪拼盘", "18": "咖喱鸡", "19": "鸡肉墨西哥薄饼",
"20": "鸡翅", "21": "巧克力蛋糕", "22": "巧克力慕斯", "23": "西班牙油条", "24": "蛤蜊浓汤",
"25": "俱乐部三明治", "26": "蟹肉饼", "27": "焦糖布丁", "28": "法式火腿奶酪三明治", "29": "纸杯蛋糕",
"30": "魔鬼蛋", "31": "甜甜圈", "32": "饺子", "33": "毛豆", "
Nsfw Image Detection
Apache-2.0
基于ViT架构的NSFW图像分类模型,通过监督学习在ImageNet-21k数据集上预训练,并在80,000张图像上微调,用于区分正常和NSFW内容。
图像分类
Transformers

N
Falconsai
82.4M
588
Fairface Age Image Detection
Apache-2.0
基于Vision Transformer架构的图像分类模型,在ImageNet-21k数据集上预训练,适用于多类别图像分类任务
图像分类
Transformers

F
dima806
76.6M
10
Dinov2 Small
Apache-2.0
基于DINOv2方法训练的小尺寸视觉Transformer模型,通过自监督学习提取图像特征
图像分类
Transformers

D
facebook
5.0M
31
Vit Base Patch16 224
Apache-2.0
基于ImageNet-21k预训练和ImageNet微调的视觉变换器模型,用于图像分类任务
图像分类
V
google
4.8M
775
Vit Base Patch16 224 In21k
Apache-2.0
基于ImageNet-21k数据集预训练的视觉Transformer模型,用于图像分类任务。
图像分类
V
google
2.2M
323
Dinov2 Base
Apache-2.0
基于DINOv2方法训练的视觉Transformer模型,通过自监督学习提取图像特征
图像分类
Transformers

D
facebook
1.9M
126
Gender Classification
一个基于PyTorch和HuggingPics构建的图像分类模型,用于识别图像中的性别
图像分类
Transformers

G
rizvandwiki
1.8M
48
Vit Base Nsfw Detector
Apache-2.0
基于Vision Transformer (ViT)架构的图像分类模型,专门用于检测图像是否包含NSFW(不安全)内容。
图像分类
Transformers

V
AdamCodd
1.2M
47
Vit Hybrid Base Bit 384
Apache-2.0
混合视觉变换器(ViT)模型结合了卷积网络和Transformer架构,用于图像分类任务,在ImageNet上表现出色。
图像分类
Transformers

V
google
992.28k
6
Gender Classification 2
这是一个基于PyTorch框架和HuggingPics工具生成的图像分类模型,专门用于性别分类任务。
图像分类
Transformers

G
rizvandwiki
906.98k
32
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文