U

Unime LLaVA OneVision 7B

由 DeepGlint-AI 开发
UniME是一个基于多模态大模型的通用嵌入学习框架,通过文本判别知识蒸馏和硬负样本增强的指令调优策略,显著提升了多模态嵌入能力。
下载量 376
发布时间 : 5/6/2025
模型介绍
内容详情
替代品

模型简介

UniME旨在突破模态壁垒,通过创新的训练方法增强多模态大模型的嵌入能力,在MMEB排行榜上表现优异。

模型特点

文本判别知识蒸馏
通过解耦大模型的LLM组件,使用提示语处理文本,并基于KL散度对齐学生模型与教师模型的嵌入向量,仅微调LLM组件。
硬负样本增强
采用基于相似度阈值的假负样本过滤机制和自动选择top-k相似但不匹配样本的策略,增加训练难度,提升模型性能。
多模态嵌入优化
通过提升视觉敏感性、强化跨模态对齐和增强指令跟随能力来优化多模态系统。

模型能力

多模态嵌入学习
图像文本理解
跨模态检索
文本总结

使用案例

信息检索
跨模态检索
根据图像检索相关文本描述,或根据文本检索相关图像
在MMEB评测中表现优异
内容理解
图像内容总结
用简洁词语总结图像内容