F

Fg Clip Large

由 qihoo360 开发
FG-CLIP是一种细粒度视觉与文本对齐模型,通过两阶段训练实现全局和区域级的图文对齐,提升细粒度视觉理解能力。
下载量 538
发布时间 : 4/29/2025
模型介绍
内容详情
替代品

模型简介

FG-CLIP采用两阶段训练策略,第一阶段利用全局级图文对实现初步细粒度对齐,第二阶段通过补充区域级描述进一步优化对齐效果,适用于细粒度视觉与文本对齐任务。

模型特点

两阶段训练
通过全局级和区域级两阶段训练,实现更精细的视觉与文本对齐。
细粒度对齐
能够捕捉图像中的细节区域并与文本描述进行精确对齐。
稠密特征可视化
支持生成图像区域的相似度热力图,直观展示模型关注点。

模型能力

细粒度图像分类
视觉与文本对齐
图像区域特征提取
零样本图像分类

使用案例

图像理解
细粒度图像分类
对具有细微差别的图像进行分类,如不同品种的猫狗识别。
能够准确区分视觉上相似的类别。
视觉搜索
基于描述的图像检索
根据文本描述检索相关图像。
能够理解细粒度描述并返回精确匹配的图像。