库名称:transformers
标签:
- 语义分割
- 视觉
- 生态学
数据集:
- restor/tcd
流水线标签:图像分割
小部件:
- 示例图片:samples/610160855a90f10006fd303e_10_00418.tif
示例标题:城市场景
许可证:cc
评估指标:
- 准确率
- F1分数
- 交并比(IoU)
Restor基于SegFormer的TCD模型卡片
这是一个语义分割模型,能够从高分辨率(10厘米/像素)航拍图像中描绘树木覆盖情况。
本模型卡片适用于所有上传至Hugging Face的类似模型。模型名称指代特定的架构变体(例如nvidia-mit-b0至nvidia-mit-b5),但训练和评估的总体细节相同。
本仓库为tcd-segformer-mit-b4
模型。
模型详情
模型描述
该语义分割模型基于全球航拍图像训练,能够准确描绘类似图像中的树木覆盖情况。模型不检测单棵树,而是提供逐像素的树木/非树木分类。
- 开发者:Restor / 苏黎世联邦理工学院
- 资助方:本项目通过Google.org影响力资助实现
- 模型类型:语义分割(二分类)
- 许可证:训练代码基于Apache-2许可证提供。NVIDIA以研究许可证发布SegFormer。部署前请检查许可证条款。本模型基于CC BY-NC图像训练。
- 微调自模型:SegFormer系列
SegFormer是Pyramid Vision Transformer v2的变体,具有相似的结构特征和语义分割解码头。功能上,其架构类似于特征金字塔网络(FPN),因为输出预测基于网络不同阶段的多尺度特征融合。
模型来源
- 代码库:https://github.com/restor-foundation/tcd
- 论文:预印本即将发布。
用途
本模型主要用于从航拍图像评估树冠覆盖度(即研究区域被树冠覆盖的百分比)。
直接使用
本模型适用于单张图像块的推理。对于大型正射影像的预测,需使用高层框架管理图像分块和预测拼接。我们的代码库提供了完整的参考实现,并已通过超大规模图像(国家尺度)测试。
模型会输出整张图像的预测结果。多数情况下,用户可能需要对特定区域(如研究样地或其他地理边界)进行覆盖度预测。建议对预测结果进行感兴趣区域分析。我们的配套流程支持基于矢量文件的区域分析。
超出范围的使用
尽管训练数据涵盖全球多样化的生态区,但部分生物群落在训练集中代表性不足,可能导致性能波动。建议用户在实际应用前自行测试模型效果。
模型训练分辨率为10厘米/像素。其他分辨率下可能获得有效预测,但结果可靠性无法保证。特别是模型本质是识别"类似树木的物体",这与分辨率高度相关。如需常规预测其他分辨率的图像,建议基于自有数据或重采样后的训练集进行微调。
本模型不预测生物量、树冠高度等衍生信息,仅预测像素属于树冠的概率。
当前版本不适用于碳信用估算。
偏差、风险与限制
主要限制在于对类似树木物体(如大型灌木、地被植物)的误识别。
训练数据由非专业人士标注。考虑到数据集规模、独立测试结果及Restor实际应用中的实证评估,我们认为这是合理的权衡。但数据中可能存在错误标签,进而导致预测偏差。观察发现,模型与训练标签的"分歧"往往更接近真实情况(即聚合统计结果更优),我们正在重新评估所有训练数据以剔除错误标注。
我们提供交叉验证结果和独立图像测试(模型未见过的图像)供用户自行评估。不提供准确性保证,关键任务或生产环境使用前请自行验证。
强烈建议用户使用自有数据进行测试评估!
快速开始
可通过此Colab笔记本查看推理示例。
完整使用流程请参考我们的预测和训练管道,支持任意大图像的分块预测和结果统计。
训练详情
训练数据
训练数据集见此处,包含数据采集和标注流程的详细信息。图像标签主要基于CC-BY 4.0许可证发布,部分子集采用CC BY-NC和CC BY-SA许可。
训练流程
采用5折交叉验证调整超参数后,在完整训练集上训练并在保留测试集上评估。主分支模型为发布版本。
使用Pytorch Lightning框架训练,典型训练命令:
tcd-train semantic segformer-mit-b4 data.output= ... data.root=/mnt/data/tcd/dataset/holdout data.tile_size=1024
预处理
本仓库包含与transformers
库兼容的预处理器配置,加载方式:
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b4')
注意:不调整输入图像尺寸(保持地理空间尺度),假设归一化在预处理阶段完成。
训练超参数
- 图像尺寸:1024×1024像素
- 初始学习率:1e-4至1e-5
- 学习率策略:高原衰减
- 优化器:AdamW
- 数据增强:随机裁剪至1024×1024、旋转、翻转、色彩调整
- 训练轮次:交叉验证75轮(确保收敛),最终模型50轮
- 归一化:ImageNet统计量
速度、规模与耗时
所有模型在24GB显存(NVIDIA RTX3090)的32核64GB内存机器上训练。最小模型训练不足半日,最大模型约36小时。
现场反馈表明,模型支持单电池无人机航拍数据的分钟级CPU推理,适合带宽受限地区使用。
评估
报告OAM-TCD保留测试集上的评估结果。
测试数据
见训练数据集链接。主分支模型在所有训练图像上训练,在测试(保留)图像上评估。

评估指标
报告保留测试集上的F1分数、准确率和IoU,以及5折交叉验证结果(图中误差条表示极值)。
结果




环境影响
以SegFormer家族最大模型为例估算(小模型如mit-b0训练耗时减半):
- 硬件类型:NVIDIA RTX3090
- 使用时长:<36小时
- 碳排放:每模型5.44千克CO2当量
碳排放估算使用机器学习影响计算器(基于Lacoste等2019)。不含实验、失败训练等耗时。实际因交叉验证需约6倍估算值(每折1次+最终训练)。
CPU高效推理可行,但延迟较高。典型单次无人机航拍数据可在数分钟内处理完毕。
引用
论文预印本即将发布,暂引用为:
BibTeX:
@unpublished{restortcd,
author = "Veitch-Michaelis, Josh and Cottam, Andrew and Schweizer, Daniella Schweizer and Broadbent, Eben N. and Dao, David and Zhang, Ce and Almeyda Zambrano, Angelica and Max, Simeon",
title = "OAM-TCD: A globally diverse dataset of high-resolution tree cover maps",
note = "In prep.",
month = "06",
year = "2024"
}
模型卡片作者
Josh Veitch-Michaelis, 2024;代表数据集作者
联系
请联系josh[at]restor.eco获取更多信息。