L

LLM2CLIP EVA02 L 14 336

由 microsoft 开发
LLM2CLIP是一种创新方法,通过大语言模型(LLM)增强CLIP的视觉表征能力,显著提升跨模态任务性能
下载量 75
发布时间 : 11/7/2024
模型介绍
内容详情
替代品

模型简介

该方法利用LLM在字幕空间进行对比学习微调,提取文本能力到输出嵌入中,突破原始CLIP文本编码器的限制,实现更丰富的视觉表征

模型特点

LLM增强的视觉表征
通过大语言模型释放CLIP潜力,整合更长更复杂的字幕描述
跨模态性能提升
在长文本和短文本检索任务上性能提升16.5%
跨语言能力
将仅英文训练的CLIP转变为最先进的跨语言模型

模型能力

零样本图像分类
跨模态检索
多语言视觉理解
长文本视觉关联

使用案例

图像理解
复杂场景理解
利用LLM处理长文本描述,实现更精准的图像场景理解
超越传统CLIP模型在复杂场景下的表现
跨语言应用
多语言图像检索
支持不同语言文本与图像的关联检索
成为最先进的跨语言视觉模型