so400m-long开源视觉语言模型 - 基于SigLIP 2微调，长文本处理能力提升

首页

So400m Long

由 fancyfeast 开发

基于SigLIP 2微调的视觉语言模型，最大文本长度从64提升至256标记

文本生成图像

Transformers

英语开源协议:Apache-2.0 #长文本视觉匹配 #多模态嵌入 #图库标签增强

下载量 27

发布时间 : 4/14/2025

模型简介

该模型是SigLIP 2的微调版本，专注于扩展上下文长度和文本类型适应，保留原始嵌入空间特征的同时提升长文本处理能力

模型特点

扩展上下文长度

最大文本长度从基础模型的64标记提升至256标记

保留原始特征

冻结视觉编码塔等关键部分，确保保留原始嵌入空间特征

多类型文本适应

训练数据包含描述性标注、图库标签、提示词等多种图文组合

模型能力

图文匹配

跨模态检索

短文本偏好识别

多类型文本处理

使用案例

内容检索

图库标签匹配

根据图像内容匹配相关标签列表

对写实类图像的识别能力仍有提升空间

多模态应用

图文对生成

为图像生成描述性文本或提示词

倾向生成较短文本描述

🚀 SigLIP 2 So400m长上下文微调模型

本模型基于 SigLIP 2 进行微调。除了最大文本长度从基础模型的 64 个标记增加到 256 个标记外，其功能与基础模型完全相同。

🚀 快速开始

本模型是 SigLIP 2 So400m 的微调版本，主要提升了文本处理的上下文长度。以下是关于该模型的详细信息。

✨ 主要特性

更长的文本处理能力：最大文本长度从 64 个标记提升到 256 个标记。
保留原始嵌入空间：在微调过程中，通过冻结部分参数确保原始嵌入空间得以保留。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

训练设置

属性	详情
训练样本	10,000,000
预热样本	1,000,000
批量大小	256
学习率	4e - 4
调度策略	Cosine
自动混合精度	bfloat16
模型权重	float32
优化器	AdamW
权重衰减	0.2
梯度裁剪范数	1.0
最大标记长度	256

需要注意的是，这些设置并非最优。SigLIP 论文指出，权重衰减对微调 SigLIP 模型不利，并且这类模型通常受益于大的批量大小。这里只是沿用了旧代码中的一些默认设置。

测试集表现

在 16K 样本的测试集上，模型初始损失为 17.65，最终损失为 2.51。

数据集

使用的数据集包含约 120 万个文本 - 图像对，数据来源多样。其中约 25 万个示例是随机的 CommonCrawl 图像 - 替代文本对，这应该最接近 so400m 的原始训练数据。其余示例来自 JoyCaption 数据集，该数据集包含各种类型的图像以及配对的文本，如描述性标题、booru 标签列表、稳定扩散提示和视觉问答。

微调过程

在训练过程中，视觉塔以及 logit_scale、logit_bias 和文本塔的头部保持完全冻结，文本塔的其余部分保持解冻状态。这样做是为了确保微调过程保留原始嵌入空间，并且专注于提升上下文长度和文本类型。

位置嵌入扩展

位置嵌入的扩展方式是保留原始的 64 个嵌入在其原始位置不变，同时随机初始化新位置。虽然没有进行消融实验来确定这是否是最优方法，但在实验过程中发现模型对位置嵌入不太敏感。

实际表现

在实际应用中，该模型的表现略优于基础的 SigLIP 2 so400m 模型，但倾向于更喜欢较短的文本。也就是说，当给定两个都能完美描述图像的文本时，模型往往会给较短的文本更高的权重。此外，该模型识别逼真图像的 booru 标签列表的能力也并不完美。

🔧 技术细节

模型微调

本模型在 SigLIP 2 的基础上进行微调，通过调整训练参数和冻结部分模型层，实现了上下文长度的扩展。在微调过程中，重点关注文本塔的调整，以适应更长的文本输入。

位置嵌入处理

位置嵌入的扩展策略是在保留原始嵌入的基础上随机初始化新位置，这种策略在实验中表现出一定的有效性，但仍有优化空间。

📄 许可证

本模型使用的许可证为 apache - 2.0。

致谢

感谢 SigLIP 2 团队在改进优秀模型方面所做的杰出工作。

BibTeX 引用和引用信息

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}