L

LLM2CLIP Openai B 16

由 microsoft 开发
LLM2CLIP是一种利用大语言模型(LLM)扩展CLIP能力的创新方法,通过对比学习框架提升文本判别性,显著提升跨模态任务性能。
下载量 1,154
发布时间 : 11/7/2024
模型介绍
内容详情
替代品

模型简介

LLM2CLIP通过微调LLM在标题空间的能力,并将其作为CLIP视觉编码器的教师模型,突破原始CLIP文本编码器的限制,支持更长更复杂的文本输入,显著提升跨模态任务表现。

模型特点

LLM增强文本编码
通过微调LLM在对比学习框架下,显著提升文本嵌入的判别能力
长文本支持
突破原始CLIP的文本长度限制,支持更长更复杂的文本输入
跨语言能力
仅用英语数据训练的模型展现出卓越的跨语言性能
多模态兼容性
可与Llava等多模态模型无缝结合,实现性能全面提升

模型能力

零样本图像分类
跨模态检索
长文本理解
多语言支持
视觉-语言对齐

使用案例

图像检索
长文本图像检索
使用复杂的长文本描述检索相关图像
相比EVA02模型提升16.5%性能
跨语言图像检索
使用不同语言文本检索图像
英语训练的模型展现出卓越跨语言能力
多模态应用
结合Llava 1.5
与多模态模型结合提升视觉理解能力
在几乎所有基准测试中超越原始CLIP