F

Fg Clip Base

由 qihoo360 开发
FG-CLIP是一个细粒度视觉与文本对齐模型,通过两阶段训练实现全局和区域级别的图像-文本对齐。
下载量 692
发布时间 : 5/8/2025
模型介绍
内容详情
替代品

模型简介

FG-CLIP专注于细粒度视觉与文本对齐,通过两阶段训练实现更精确的图像-文本匹配能力。

模型特点

两阶段训练
第一阶段实现全局级别的标题-图像对齐,第二阶段补充区域级别的标题以优化对齐效果
细粒度对齐
能够处理细粒度的视觉与文本对齐任务,包括区域级别的描述
密集特征提取
支持获取图像的密集特征,可用于更精细的视觉分析

模型能力

零样本图像分类
图像-文本匹配
细粒度视觉分析
密集特征提取

使用案例

图像检索
图像分类
基于文本描述对图像进行分类
在示例中正确识别猫的图像
视觉分析
区域特征分析
分析图像中特定区域的特征
可生成区域级别的相似度热图