L

LLM2CLIP Openai L 14 224

由 microsoft 开发
LLM2CLIP是一种利用大型语言模型(LLM)释放CLIP潜力的创新方法,通过对比学习框架提升文本判别性,突破原始CLIP文本编码器的限制。
下载量 108
发布时间 : 11/19/2024
模型介绍
内容详情
替代品

模型简介

LLM2CLIP通过在对比学习框架下对LLM进行标题空间微调,将其文本能力提取到输出嵌入中,显著提升了输出层的文本判别性。随后设计了一个高效训练流程,将微调后的LLM作为CLIP视觉编码器的强力教师模型。

模型特点

突破CLIP文本编码器限制
通过引入LLM,能够使用更长、更复杂的标题,突破原始CLIP文本编码器的上下文窗口和能力限制。
跨语言能力
将仅用英语数据训练的CLIP模型转化为最先进的跨语言模型。
性能提升
在长文本和短文本检索任务上,将此前SOTA模型EVA02的性能提升了16.5%。
多模态兼容
与Llava 1.5等多模态模型结合时,在几乎所有基准测试中都持续超越CLIP。

模型能力

零样本分类
跨模态检索
长文本处理
跨语言转换

使用案例

图像检索
长文本图像检索
使用更长、更复杂的标题进行图像检索
性能提升16.5%
跨语言应用
跨语言图像检索
将英语训练的模型应用于其他语言的图像检索
成为最先进的跨语言模型