许可证: MIT
语言:
标签:
- 零样本图像分类
- OpenCLIP
- CLIP
- 生物学
- 生物多样性
- 农学
- 计算机视觉
- 图像
- 动物
- 物种
- 分类学
- 稀有物种
- 濒危物种
- 进化生物学
- 多模态
- 知识引导
数据集:
基础模型:
- openai/clip-vit-base-patch16
- openai/clip-vit-large-patch14
管道标签: 零样本图像分类
指标:
BioTrove-CLIP 模型卡
BioTrove-CLIP 是一套新的生物多样性视觉语言基础模型。这些基于 CLIP 风格的基础模型在 BioTrove-Train 数据集上训练,该数据集包含 4000 万张
图像,涵盖 3.3 万种
植物和动物物种。这些模型在零样本图像分类任务上进行了评估。
这些模型是为 AI 社区开发的开放源代码产品。因此,我们要求任何衍生品也必须是开源的。
模型描述
BioTrove-CLIP 基于 OpenAI 的 CLIP 模型。
这些模型在 BioTrove-Train 数据集上训练,配置如下:
- BioTrove-CLIP-O: 使用 ViT-B/16 骨干网络,从 OpenCLIP 的检查点初始化,训练了 40 个周期。
- BioTrove-CLIP-B: 使用 ViT-B/16 骨干网络,从 BioCLIP 的检查点初始化,训练了 8 个周期。
- BioTrove-CLIP-M: 使用 ViT-L/14 骨干网络,从 MetaCLIP 的检查点初始化,训练了 12 个周期。
要访问上述模型的检查点,请转到 文件与版本
标签页并下载权重。这些权重可直接用于零样本分类和微调。文件名对应特定模型的权重:
- BioTrove-CLIP-O: -
biotroveclip-vit-b-16-from-openai-epoch-40.pt
- BioTrove-CLIP-B: -
biotroveclip-vit-b-16-from-bioclip-epoch-8.pt
- BioTrove-CLIP-M: -
biotroveclip-vit-l-14-from-metaclip-epoch-12.pt
模型训练
请参阅 Github 上的 模型训练 部分,了解如何在零样本图像分类任务中使用 BioTrove-CLIP 模型的示例。
我们使用 BioCLIP / OpenCLIP 代码库的修改版本训练了三个模型。每个模型在 Arboretum-40M 数据集上训练,使用 2 个节点、8 个 H100 GPU,在 NYU 的 Greene 高性能计算集群上运行。我们在 Github 页面上公开了重现结果所需的所有代码。
在训练前,我们使用 Ray 优化超参数。标准训练参数如下:
--dataset-type webdataset
--pretrained openai
--text_type random
--dataset-resampled
--warmup 5000
--batch-size 4096
--accum-freq 1
--epochs 40
--workers 8
--model ViT-B-16
--lr 0.0005
--wd 0.0004
--precision bf16
--beta1 0.98
--beta2 0.99
--eps 1.0e-6
--local-loss
--gather-with-grad
--ddp-static-graph
--grad-checkpointing
关于训练过程和每个超参数意义的更详细文档,建议参考 OpenCLIP 和 BioCLIP 的文档。
模型验证
为了验证训练模型的零样本准确性并与其他基准进行比较,我们使用了 VLHub 仓库,并做了一些轻微修改。
预运行
克隆 Github 仓库并导航到 BioTrove/model_validation
目录后,建议将所有项目需求安装到 conda 容器中:pip install -r requirements.txt
。此外,在执行 VLHub 中的命令之前,请将 BioTrove/model_validation/src
添加到 PYTHONPATH 中。
export PYTHONPATH="$PYTHONPATH:$PWD/src";
基本命令
可以按以下方式启动基本的 BioTrove-CLIP 模型评估命令。此示例将评估一个 CLIP-ResNet50 检查点,其权重通过 --resume
标志指定路径,在 ImageNet 验证集上进行评估,并将结果报告到 Weights and Biases。
python src/training/main.py --batch-size=32 --workers=8 --imagenet-val "/imagenet/val/" --model="resnet50" --zeroshot-frequency=1 --image-size=224 --resume "/PATH/TO/WEIGHTS.pth" --report-to wandb
训练链接
模型的局限性
所有 BioTrove-CLIP
模型均在具有挑战性的 CONFOUNDING-SPECIES 基准上进行了评估。然而,所有模型的性能均处于或低于随机水平。这可能是后续工作的一个有趣方向,可以进一步扩展模型的能力。
总的来说,我们发现基于网络抓取数据训练的模型在常见名称上表现更好,而基于专业数据集训练的模型在使用科学名称时表现更好。此外,基于网络抓取数据训练的模型在最高分类级别(界)上表现出色,而像 BioTrove-Train (40M) 和 Tree-of-Life-10M 这样的专业数据集在较低分类级别(目和种)上开始显示出优势。从实际角度来看,BioTrove-CLIP
在物种级别上非常准确,而更高级别的分类可以从低级分类中确定性推导出来。
解决这些局限性将进一步提升 BioTrove-CLIP
等模型在现实世界生物多样性监测任务中的适用性。
致谢
这项工作得到了 NSF 和 USDA-NIFA 支持的 AI 研究所:韧性农业 计划的资助,奖项编号为 2021-67021-35329。部分支持来自 NSF 的 CPS Frontier 资助 CNS-1954556。此外,我们衷心感谢 NYU IT 高性能计算 资源、服务和员工专业知识的支持。
引用
如果您在研究中发现这些模型和数据集有用,请考虑引用我们的论文:
@misc{yang2024arboretumlargemultimodaldataset,
title={Arboretum: 一个大型多模态数据集推动 AI 助力生物多样性},
author={Chih-Hsuan Yang, Benjamin Feuer, Zaki Jubery, Zi K. Deng, Andre Nakkab,
Md Zahid Hasan, Shivani Chiranjeevi, Kelly Marshall, Nirmal Baishnab, Asheesh K Singh,
Arti Singh, Soumik Sarkar, Nirav Merchant, Chinmay Hegde, Baskar Ganapathysubramanian},
year={2024},
eprint={2406.17720},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2406.17720},
}
有关 Arboretum 数据集的更多详细信息和访问,请访问 项目页面。