🚀 SigLIP 2 So400m长上下文微调模型
本模型基于 SigLIP 2 进行微调。除了最大文本长度从基础模型的 64 个标记增加到 256 个标记外,其功能与基础模型完全相同。
🚀 快速开始
本模型是 SigLIP 2 So400m 的微调版本,主要提升了文本处理的上下文长度。以下是关于该模型的详细信息。
✨ 主要特性
- 更长的文本处理能力:最大文本长度从 64 个标记提升到 256 个标记。
- 保留原始嵌入空间:在微调过程中,通过冻结部分参数确保原始嵌入空间得以保留。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
训练设置
属性 |
详情 |
训练样本 |
10,000,000 |
预热样本 |
1,000,000 |
批量大小 |
256 |
学习率 |
4e - 4 |
调度策略 |
Cosine |
自动混合精度 |
bfloat16 |
模型权重 |
float32 |
优化器 |
AdamW |
权重衰减 |
0.2 |
梯度裁剪范数 |
1.0 |
最大标记长度 |
256 |
需要注意的是,这些设置并非最优。SigLIP 论文指出,权重衰减对微调 SigLIP 模型不利,并且这类模型通常受益于大的批量大小。这里只是沿用了旧代码中的一些默认设置。
测试集表现
在 16K 样本的测试集上,模型初始损失为 17.65,最终损失为 2.51。
数据集
使用的数据集包含约 120 万个文本 - 图像对,数据来源多样。其中约 25 万个示例是随机的 CommonCrawl 图像 - 替代文本对,这应该最接近 so400m 的原始训练数据。其余示例来自 JoyCaption 数据集,该数据集包含各种类型的图像以及配对的文本,如描述性标题、booru 标签列表、稳定扩散提示和视觉问答。
微调过程
在训练过程中,视觉塔以及 logit_scale、logit_bias 和文本塔的头部保持完全冻结,文本塔的其余部分保持解冻状态。这样做是为了确保微调过程保留原始嵌入空间,并且专注于提升上下文长度和文本类型。
位置嵌入扩展
位置嵌入的扩展方式是保留原始的 64 个嵌入在其原始位置不变,同时随机初始化新位置。虽然没有进行消融实验来确定这是否是最优方法,但在实验过程中发现模型对位置嵌入不太敏感。
实际表现
在实际应用中,该模型的表现略优于基础的 SigLIP 2 so400m 模型,但倾向于更喜欢较短的文本。也就是说,当给定两个都能完美描述图像的文本时,模型往往会给较短的文本更高的权重。此外,该模型识别逼真图像的 booru 标签列表的能力也并不完美。
🔧 技术细节
模型微调
本模型在 SigLIP 2 的基础上进行微调,通过调整训练参数和冻结部分模型层,实现了上下文长度的扩展。在微调过程中,重点关注文本塔的调整,以适应更长的文本输入。
位置嵌入处理
位置嵌入的扩展策略是在保留原始嵌入的基础上随机初始化新位置,这种策略在实验中表现出一定的有效性,但仍有优化空间。
📄 许可证
本模型使用的许可证为 apache - 2.0。
致谢
感谢 SigLIP 2 团队在改进优秀模型方面所做的杰出工作。
BibTeX 引用和引用信息
@misc{tschannen2025siglip2multilingualvisionlanguage,
title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features},
author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
year={2025},
eprint={2502.14786},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.14786},
}