U

Unime LLaVA 1.6 7B

由 DeepGlint-AI 开发
UniME是一个基于多模态大模型的通用嵌入学习模型,采用336×336图像分辨率训练,在MMEB排行榜上位列第一。
下载量 188
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

UniME通过文本判别知识蒸馏和困难负样本增强的指令调优方法,增强多模态大模型的嵌入能力,适用于跨模态检索任务。

模型特点

文本判别知识蒸馏
通过KL散度对齐学生模型与教师模型在批次相似度分布上的嵌入,仅微调LLM组件,其余参数全部冻结。
困难负样本增强
采用相似度阈值的假阴性过滤机制消除误导样本,并自动选择top-k相似但不匹配样本增加训练难度。
高分辨率训练
采用336×336图像分辨率训练,提升视觉细节捕捉能力。

模型能力

跨模态检索
图像理解
文本理解
嵌入学习

使用案例

跨模态检索
图像-文本匹配
计算图像与文本描述之间的相似度
在MMEB评测中取得优异表现