SlimSAM-uniform-77开源模型 - 高效复用预训练SAM，无需大量重复训练

首页

Slimsam Uniform 77

由 Zigeng 开发

SlimSAM是一种创新的SAM模型压缩方法，通过统一剪枝-蒸馏框架高效复用预训练SAM，无需大量重复训练。

图像分割

Transformers

其他开源协议:Apache-2.0 #轻量化分割 #低数据依赖 #剪枝蒸馏

下载量 18.82k

发布时间 : 1/8/2024

模型简介

SlimSAM是一种分割万物模型(SAM)的轻量化版本，通过创新的剪枝-蒸馏框架实现模型压缩，显著减少参数量和运算量，同时保持接近原始模型的性能。

模型特点

高效压缩

仅需0.1%训练数据即可实现模型压缩，参数量降至0.9%，运算量降至0.8%

交替瘦身策略

通过渐进式剪枝与蒸馏步骤，增强原始SAM的知识传承

无标签剪枝准则

剪枝目标与优化方向对齐，提升剪枝后蒸馏效果

模型能力

图像分割

目标识别

语义分割

使用案例

计算机视觉

物体分割

对图像中的特定物体进行精确分割

在少量训练数据下保持接近原始SAM的分割精度

轻量化部署

在资源受限设备上部署图像分割模型

显著减少模型大小和计算需求

🚀 SlimSAM: 0.1% 数据让任意分割模型瘦身

SlimSAM 是一种新颖的 SAM 压缩方法，通过高效复用预训练的 SAM 模型，无需大量重新训练，就能在减少模型参数和计算量的同时，保持接近原模型的性能。该方法使用统一的剪枝 - 蒸馏框架，结合交替瘦身策略和无标签剪枝准则，实现了高效的模型压缩。

🚀 快速开始

本地统一剪枝 SlimSAM - 50 模型的快速状态字典加载

model = SamModel.from_pretrained("Zigeng/SlimSAM-uniform-77").to("cuda")
processor = SamProcessor.from_pretrained("Zigeng/SlimSAM-uniform-77")

img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
input_points = [[[450, 600]]] # 窗口的二维定位
inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to("cuda")
outputs = model(**inputs)
masks = processor.image_processor.post_process_masks(outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu())
scores = outputs.iou_scores

✨ 主要特性

高效复用预训练模型：通过统一的剪枝 - 蒸馏框架，高效复用预训练的 SAM 模型，无需大量重新训练。
交替瘦身策略：采用创新的交替瘦身策略，将压缩过程划分为渐进式步骤，增强从原始 SAM 继承的知识。
无标签剪枝准则：提出了一种新颖的无标签剪枝准则，使剪枝目标与优化目标一致，提高剪枝后的蒸馏效果。
显著的压缩效果：与原始 SAM - H 相比，SlimSAM 将参数数量减少到 0.9%（570 万），MACs 减少到 0.8%（21G），仅需 0.1%（10k）的训练数据，同时实现接近的性能。
数据高效性：与其他 SAM 压缩方法相比，在使用少 10 倍以上训练数据的情况下，实现了显著的优越性能。

📚 详细文档

简介

SlimSAM 是一种新颖的 SAM 压缩方法，它通过统一的剪枝 - 蒸馏框架，高效地复用预训练的 SAM 模型，而无需进行大量的重新训练。为了增强从原始 SAM 继承的知识，我们采用了一种创新的交替瘦身策略，将压缩过程划分为渐进式步骤。与以往的剪枝技术不同，我们精心地以交替方式对解耦的模型结构进行剪枝和蒸馏。此外，还提出了一种新颖的无标签剪枝准则，使剪枝目标与优化目标一致，从而提高剪枝后的蒸馏效果。

SlimSAM 在减少参数数量到 0.9%（570 万）、MACs 到 0.8%（21G） 的同时，仅需 0.1%（10k） 的训练数据，就能实现接近原始 SAM - H 的性能。大量实验表明，与其他 SAM 压缩方法相比，我们的方法在使用少 10 倍以上 训练数据的情况下，实现了显著的优越性能。

作者信息

0.1% Data Makes Segment Anything Slim
陈梓耕，方巩凡，马心印，王新潮
[学习与视觉实验室](http://lv - nus.org/)，新加坡国立大学
论文: [Arxiv] 代码: [GitHub]

BibTex 引用

如果您在研究中使用了 SlimSAM，请使用以下 BibTeX 条目。感谢您的支持！

@misc{chen202301,
      title={0.1% Data Makes Segment Anything Slim}, 
      author={Zigeng Chen and Gongfan Fang and Xinyin Ma and Xinchao Wang},
      year={2023},
      eprint={2312.05284},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

致谢

SAM (Segment Anything) [bib]

@article{kirillov2023segany,
  title={Segment Anything}, 
  author={Kirillov, Alexander and Mintun, Eric and Ravi, Nikhila and Mao, Hanzi and Rolland, Chloe and Gustafson, Laura and Xiao, Tete and Whitehead, Spencer and Berg, Alexander C. and Lo, Wan-Yen and Doll{\'a}r, Piotr and Girshick, Ross},
  journal={arXiv:2304.02643},
  year={2023}
}

Torch Pruning (DepGraph: Towards Any Structural Pruning) [bib]

@inproceedings{fang2023depgraph,
  title={Depgraph: Towards any structural pruning},
  author={Fang, Gongfan and Ma, Xinyin and Song, Mingli and Mi, Michael Bi and Wang, Xinchao},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={16091--16101},
  year={2023}
}