L

Llave 7B

由 zhibinlan 开发
LLaVE-7B是基于LLaVA-OneVision-7B模型的70亿参数多模态嵌入模型,具备文本、图像、多图像和视频的嵌入表示能力。
下载量 1,389
发布时间 : 2/9/2025
模型介绍
内容详情
替代品

模型简介

LLaVE-7B是一个多模态嵌入模型,能够处理文本、图像、多图像和视频的嵌入表示,在MMEB排行榜上表现优异,并展现出强大的迁移学习能力。

模型特点

多模态嵌入能力
能够同时对文本、图像、多图像和视频进行嵌入表示
卓越性能
仅使用66.2万训练样本就在MMEB上实现了最先进的性能
强大的迁移能力
虽然在图文数据上训练,但能零样本泛化到文本-视频检索任务
高效训练
仅使用少量数据就取得优异表现

模型能力

文本嵌入表示
图像嵌入表示
多图像嵌入表示
视频嵌入表示
跨模态检索
零样本迁移学习

使用案例

信息检索
跨模态检索
根据文本查询检索相关图像或视频
在MMEB排行榜上取得首位
内容理解
图像内容理解
理解图像内容并生成相关文本表示
能准确区分图像中的不同对象