库名称: transformers
标签:
- 语义分割
- 视觉
- 生态学
数据集:
- restor/tcd
管道标签: 图像分割
小部件:
- 示例: samples/610160855a90f10006fd303e_10_00418.tif
示例标题: 城市景观
许可证: cc
指标:
- 准确率
- f1分数
- 交并比
Restor基于SegFormer的TCD模型卡
这是一个能够在高分辨率(10厘米/像素)航拍图像中描绘树木覆盖的语义分割模型。
本模型卡适用于上传至Hugging Face的所有类似模型。模型名称指代特定架构变体(如nvidia-mit-b0到nvidia-mit-b5),但训练和评估的总体细节相同。
本仓库为tcd-segformer-mit-b5
模型。
引用与联系
BibTeX引用:
该论文已被NeurIPS 2024数据集与基准测试赛道收录。
最终版本确认且会议论文集上线后,引用信息将更新。
@inproceedings{restortcd,
author = {Veitch-Michaelis, Josh and Cottam, Andrew and Schweizer, Daniella Schweizer and Broadbent, Eben N. and Dao, David and Zhang, Ce and Almeyda Zambrano, Angelica and Max, Simeon}
title = {OAM-TCD: 全球多样化的高分辨率树木覆盖地图数据集},
booktitle = {Advances in Neural Information Processing Systems},
pages = {1--12},
publisher = {Curran Associates, Inc.},
volume = {37},
year = {2024}
如有疑问或需要更多信息,请联系josh[at]restor.eco。
模型详情
模型描述
该语义分割模型基于全球航拍影像训练,能够准确描绘类似图像中的树木覆盖。模型不检测单株树木,而是提供像素级的树木/非树木分类。
- 开发机构: Restor / 苏黎世联邦理工学院
- 资助方: 本项目通过Google.org影响力资助实现
- 模型类型: 语义分割(二分类)
- 许可证: 训练代码采用Apache-2许可。NVIDIA发布的SegFormer采用其研究许可证。部署前请确认许可条款。本模型基于CC BY-NC影像训练。
- 微调来源: SegFormer系列
SegFormer是Pyramid Vision Transformer v2的变体,具有相似结构特征和语义分割解码头。功能上,该架构类似特征金字塔网络(FPN),因为输出预测基于网络不同阶段的多尺度特征组合。
使用方式
直接使用
适用于单张图像推理。处理大型正射影像时,需要高层框架管理图像分块和预测拼接。我们的仓库提供了经过验证的完整实现方案,可处理超大规模图像(国家尺度)。
模型将输出整图预测。通常用户需要分析特定区域(如研究样地)的覆盖情况。建议对预测结果进行感兴趣区域分析。我们的配套流程支持基于矢量文件的区域分析。
非适用场景
虽然训练数据涵盖全球多样生态区,但某些生物群落代表性不足,性能可能波动。建议用户在使用前自行测试。
模型基于10厘米/像素分辨率训练。其他分辨率可能获得可用结果,但可靠性无法保证。如需常规处理不同分辨率图像,建议基于自有数据或重采样训练集进行微调。
本模型不预测生物量、冠层高度等衍生信息,仅输出像素级树冠覆盖概率。
当前版本不适用于碳信用估算。
训练详情
训练数据
训练数据集详见此处。标注数据主要采用CC-BY 4.0许可,部分子集采用CC BY-NC和CC BY-SA许可。
训练流程
采用5折交叉验证调整超参数后,基于完整训练集训练并在预留测试集评估。主分支模型为正式发布版本。
使用Pytorch Lightning框架,典型训练命令:
tcd-train semantic segformer-mit-b5 data.output=... data.root=/mnt/data/tcd/dataset/holdout data.tile_size=1024
预处理
本仓库包含与transformers
库兼容的预处理器配置:
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b5')
注意我们保持输入图像原始尺寸(保留地理空间尺度),归一化在预处理阶段完成。
超参数配置
- 图像尺寸: 1024像素方形
- 初始学习率: 1e4-1e5
- 学习率策略: 高原衰减
- 优化器: AdamW
- 数据增强: 随机裁剪至1024x1024,任意旋转/翻转/色彩调整
- 训练轮次: 交叉验证75轮,最终模型50轮
- 归一化: Imagenet统计量
评估结果
在OAM-TCD预留测试集上报告F1、准确率和IoU指标,以及5折交叉验证结果(图中误差条表示极值)。

环境影响
- 硬件类型: NVIDIA RTX3090
- 使用时长: <36小时
- 碳排放: 每模型5.44kg CO2当量
碳排放估算采用Lacoste等(2019)提出的机器学习影响计算器。该估算未包含实验性训练等耗时。实际因交叉验证需求,每模型需约6倍估算时长。
CPU端可实现高效推理(适合野外作业),但会延长处理时间。典型单次无人机航拍数据可在数分钟内处理完毕。
模型卡作者
Josh Veitch-Michaelis, 2024; 代表数据集作者团队