library_name: transformers
tags:
- 语义分割
- 视觉
- 生态学
datasets:
- restor/tcd
pipeline_tag: 图像分割
widget:
- src: samples/610160855a90f10006fd303e_10_00418.tif
example_title: 城市场景
license: cc
metrics:
- 准确率
- F1分数
- 交并比(IoU)
Restor基于SegFormer的TCD模型卡
这是一个语义分割模型,能够从高分辨率(10厘米/像素)航拍图像中勾勒出树木覆盖区域。
本模型卡适用于上传至Hugging Face的所有同类模型。模型名称指代特定架构变体(如nvidia-mit-b0至nvidia-mit-b5),但训练和评估的总体细节相同。
本仓库对应tcd-segformer-mit-b0
模型
模型详情
模型描述
该语义分割模型基于全球航拍影像训练,能精准识别同类图像中的树木覆盖区域。模型不检测单棵树木,而是提供逐像素的树木/非树木分类。
- 开发机构: Restor / 苏黎世联邦理工学院
- 资助方: 本项目通过Google.org影响力资助实现
- 模型类型: 语义分割(二分类)
- 许可协议: 训练代码遵循Apache-2许可。NVIDIA发布的SegFormer采用其研究专用许可,部署前请确认条款。本模型基于CC BY-NC协议图像训练。
- 微调基础模型: SegFormer系列
SegFormer是金字塔视觉Transformer v2模型的变体,具有相似结构特征和语义分割解码头。其功能类似特征金字塔网络(FPN),通过融合网络不同阶段的特征进行多尺度预测。
模型来源
- 代码仓库: https://github.com/restor-foundation/tcd
- 论文: 预印本即将发布
用途
主要应用于航拍图像的冠层覆盖评估(即研究区域内树冠覆盖百分比)。
直接使用
适用于单张图像推理。处理大型正射影像时需配合分块管理框架。我们仓库提供完整参考实现,支持国家级超大图像处理。
模型输出整图预测结果。用户通常需针对特定区域(如研究样地)进行分析。我们的流程工具支持基于矢量边界的区域统计。
非适用场景
尽管训练数据涵盖全球多样生态,部分生物群落样本不足可能导致性能波动。建议关键应用前自行验证。
模型基于10厘米/像素分辨率训练。其他分辨率可能适用但可靠性存疑,因"树木特征"具有分辨率依赖性。如需常规处理不同分辨率数据,建议使用重采样数据集微调。
本模型不预测生物量、冠层高度等衍生指标,仅输出像素级树冠覆盖概率。
当前版本不适用于碳信用评估。
偏差、风险与限制
主要局限在于对类树物体(如大型灌木、地被植物)的误判。
训练数据由非专业标注,虽经独立测试和实际应用验证,仍可能存在标注错误导致的预测偏差。我们发现模型常能修正标注错误,正在全面复核训练数据。
我们提供交叉验证和独立测试结果供用户评估,但不承诺准确率保证。关键应用前请自行验证。
强烈建议使用自有数据进行实验性测试!
快速开始
可通过Colab笔记本体验推理演示。
完整流程请参考我们的预测与训练管道,支持大图分块处理和结果统计。
训练详情
训练数据
数据集详见此处,含采集与标注流程说明。多数图像标签采用CC-BY 4.0许可,部分为CC BY-NC/SA。
训练流程
采用5折交叉验证调参后,在全训练集上训练并在保留测试集评估。主分支模型为发布版本。
使用Pytorch Lightning框架,典型训练命令:
tcd-train semantic segformer-mit-b0 data.output=... data.root=/mnt/data/tcd/dataset/holdout data.tile_size=1024
预处理
本仓库包含与transformers
库兼容的预处理器配置:
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b0')
注意:保持输入图像原始尺寸(维持地理尺度),标准化在预处理阶段完成。
超参数
- 图像尺寸: 1024×1024像素
- 初始学习率: 1e-4至1e-5
- 学习率策略: 高原衰减
- 优化器: AdamW
- 数据增强: 随机裁剪、旋转、翻转、色彩调整
- 训练轮次: 交叉验证75轮(确保收敛),最终模型50轮
- 标准化: Imagenet统计值
性能指标
- 硬件: NVIDIA RTX3090 (24GB显存) + 32核CPU/64GB内存
- 训练时长: 最小模型<0.5天,最大模型约1天
- 推理: 支持CPU处理(需大内存),推荐1024×1024分块预测
现场反馈表明,本模型支持单次无人机航拍数据在数分钟内完成处理,适合带宽受限的野外环境。
评估
基于OAM-TCD保留测试集进行评估。
测试数据
参见训练数据集。主分支模型在全训练集训练,保留测试集评估。

评估指标
报告保留测试集的F1、准确率、IoU及5折交叉验证结果(图中误差条表示极值)。
结果




环境影响
以下为SegFormer系列模型的最大训练消耗估算(mit-b0等小模型训练时间减半):
- 硬件类型: NVIDIA RTX3090
- 使用时长: <36小时
- 碳排放: 5.44千克CO2当量/模型
碳排估算基于Lacoste等(2019)的机器学习影响计算器。不含实验性训练等消耗(实际因交叉验证需约6倍计算量)。
CPU端高效推理可行,适合野外作业(牺牲延迟换取便携性)。
引用
论文预印本即将发布,暂引用格式:
BibTeX:
@unpublished{restortcd,
author = "Veitch-Michaelis, Josh and Cottam, Andrew and Schweizer, Daniella Schweizer and Broadbent, Eben N. and Dao, David and Zhang, Ce and Almeyda Zambrano, Angelica and Max, Simeon",
title = "OAM-TCD: 全球多样化高分辨率树冠覆盖数据集",
note = "筹备中",
month = "06",
year = "2024"
}
模型卡作者
Josh Veitch-Michaelis, 2024; 代表数据集作者团队
联系
咨询请联系:josh [at] restor.eco