L

Llave 2B

由 zhibinlan 开发
LLaVE-2B是基于Aquila-VL-2B模型的20亿参数多模态嵌入模型,具有4K tokens的上下文窗口,支持文本、图像、多图像和视频的嵌入表示。
下载量 20.05k
发布时间 : 2/9/2025
模型介绍
内容详情
替代品

模型简介

LLaVE-2B是一个多模态嵌入模型,能够对文本、图像、多图像和视频进行嵌入表示,适用于句子相似度、零样本图像分类等任务。

模型特点

多模态嵌入
支持文本、图像、多图像和视频的嵌入表示,能够处理多种模态的数据。
4K tokens上下文窗口
具有4K tokens的上下文窗口,能够处理较长的输入序列。
零样本图像分类
能够在零样本设置下进行图像分类任务,无需额外训练数据。
迁移学习能力强
尽管在图像-文本数据上训练,但能泛化到文本-视频检索任务,表现出色。

模型能力

文本嵌入
图像嵌入
视频嵌入
多模态嵌入
句子相似度计算
零样本图像分类
视频-文本检索

使用案例

图像检索
图像-文本检索
根据文本描述检索相关图像
在MMEB排行榜上取得优异表现
视频检索
零样本视频-文本检索
根据文本描述检索相关视频
表现出色,展示了迁移到其他嵌入任务的潜力