许可证:apache-2.0
数据集:
- prithivMLmods/Multilabel-GeoSceneNet-16K
库名称:transformers
语言:
- en
基础模型:
- google/siglip2-base-patch16-224
管道标签:image-classification
标签:
- 建筑
- 沙漠
- 冰川
- 街道
- 海洋
- 图像分类器
- 艺术
- 山脉

多标签地理场景网络
Multilabel-GeoSceneNet 是基于 google/siglip2-base-patch16-224 微调的视觉-语言编码模型,用于多标签图像分类。该模型采用 SiglipForImageClassification 架构,旨在识别并标注单张图像中的多种地理或环境元素。
分类报告:
精确度 召回率 F1分数 支持数
建筑与结构 0.8881 0.9498 0.9179 2190
沙漠 0.9649 0.9480 0.9564 2000
森林区域 0.9807 0.9855 0.9831 2271
丘陵或山脉 0.8616 0.8993 0.8800 2512
冰川 0.9114 0.8382 0.8732 2404
海洋或大海 0.9328 0.9525 0.9426 2274
街景 0.9476 0.9106 0.9287 2382
准确率 0.9245 16033
宏平均 0.9267 0.9263 0.9260 16033
加权平均 0.9253 0.9245 0.9244 16033

该模型可预测以下7种地理场景类别中的一种或多种:
类别 0: "建筑与结构"
类别 1: "沙漠"
类别 2: "森林区域"
类别 3: "丘陵或山脉"
类别 4: "冰川"
类别 5: "海洋或大海"
类别 6: "街景"
安装依赖项
!pip install -q transformers torch pillow gradio
推理代码
import gradio as gr
from transformers import AutoImageProcessor, SiglipForImageClassification
from PIL import Image
import torch
model_name = "prithivMLmods/Multilabel-GeoSceneNet"
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)
def classify_geoscene_image(image):
"""预测输入图像的地理场景标签。"""
image = Image.fromarray(image).convert("RGB")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
probs = torch.sigmoid(logits).squeeze().tolist()
labels = {
"0": "建筑与结构",
"1": "沙漠",
"2": "森林区域",
"3": "丘陵或山脉",
"4": "冰川",
"5": "海洋或大海",
"6": "街景"
}
threshold = 0.5
predictions = {
labels[str(i)]: round(probs[i], 3)
for i in range(len(probs)) if probs[i] >= threshold
}
return predictions or {"未检测到": 0.0}
iface = gr.Interface(
fn=classify_geoscene_image,
inputs=gr.Image(type="numpy"),
outputs=gr.Label(label="预测场景类别"),
title="多标签地理场景网络",
description="上传图像以检测多种地理场景元素(如森林、海洋、建筑)。"
)
if __name__ == "__main__":
iface.launch()
预期用途:
Multilabel-GeoSceneNet 模型适用于识别单张图像中的多种地理和结构元素。应用场景包括:
- 遥感: 标注卫星或无人机图像中的元素。
- 地理标记: 自动为图像添加标签以便搜索或分类。
- 环境监测: 识别冰川或森林等特征。
- 场景理解: 辅助自动驾驶系统解析复杂场景。