S

So400m Long

由 fancyfeast 开发
基于SigLIP 2微调的视觉语言模型,最大文本长度从64提升至256标记
下载量 27
发布时间 : 4/14/2025
模型介绍
内容详情
替代品

模型简介

该模型是SigLIP 2的微调版本,专注于扩展上下文长度和文本类型适应,保留原始嵌入空间特征的同时提升长文本处理能力

模型特点

扩展上下文长度
最大文本长度从基础模型的64标记提升至256标记
保留原始特征
冻结视觉编码塔等关键部分,确保保留原始嵌入空间特征
多类型文本适应
训练数据包含描述性标注、图库标签、提示词等多种图文组合

模型能力

图文匹配
跨模态检索
短文本偏好识别
多类型文本处理

使用案例

内容检索
图库标签匹配
根据图像内容匹配相关标签列表
对写实类图像的识别能力仍有提升空间
多模态应用
图文对生成
为图像生成描述性文本或提示词
倾向生成较短文本描述