L

LLM2CLIP Llama 3 8B Instruct CC Finetuned

由 microsoft 开发
LLM2CLIP是一种创新方法,通过大语言模型增强CLIP的跨模态能力,显著提升视觉和文本表征的判别力。
下载量 18.16k
发布时间 : 11/16/2024

模型简介

该方法通过对比学习微调LLM,将其文本能力迁移至CLIP的输出嵌入层,突破原始CLIP文本编码器的限制,支持更长更复杂的描述文本。

模型特点

LLM增强的文本表征
通过微调大语言模型提升文本嵌入质量,突破原始CLIP的文本编码限制
长文本支持
支持512token的文本输入,处理更复杂的描述内容
跨语言能力
仅用英语数据训练即可实现优秀的跨语言检索性能
多模态兼容性
可与Llava等视觉语言模型无缝结合,全面超越原始CLIP性能

模型能力

图像特征提取
跨模态检索
零样本分类
多模态理解
长文本处理

使用案例

图像检索
复杂描述图像搜索
使用自然语言长描述搜索相关图像
在长文本检索任务上性能提升16.5%
跨语言应用
非英语图像检索
使用非英语文本查询相关图像
使英语训练模型跃升为最先进的跨语言模型
AIbase
智启未来,您的人工智能解决方案智库
简体中文