L

Llave 0.5B

由 zhibinlan 开发
LLaVE是基于LLaVA-OneVision-0.5B模型的多模态嵌入模型,参数规模为0.5B,能够对文本、图像、多图像和视频进行嵌入。
下载量 2,897
发布时间 : 2/6/2025
模型介绍
内容详情
替代品

模型简介

LLaVE是一个多模态嵌入模型,能够处理文本、图像和视频数据,支持句子相似度计算、零样本图像分类等任务。

模型特点

多模态嵌入
能够同时对文本、图像和视频数据进行嵌入处理
高效性能
仅使用少量参数和训练数据就在MMEB排行榜上取得优异表现
零样本迁移能力
在图像-文本数据上训练,但能零样本泛化到文本-视频检索任务

模型能力

文本嵌入
图像嵌入
视频嵌入
句子相似度计算
零样本图像分类
跨模态检索

使用案例

图像检索
基于文本的图像搜索
根据文本描述检索相关图像
在MMEB评估中表现优异
跨模态检索
文本到视频检索
根据文本描述检索相关视频片段
零样本情况下表现出强大性能