L

Llava Next Inst It Vicuna 7B

由 Inst-IT 开发
LLaVA-Next-Inst-It-Vicuna-7B 是一款在多模态实例级理解方面表现卓越的模型,通过显式视觉提示指令调优增强多模态实例理解。
下载量 14
发布时间 : 12/5/2024
模型介绍
内容详情
替代品

模型简介

该模型基于 LLaVA-NeXT 架构,结合 Vicuna-7B 语言模型,专注于多模态实例级理解任务,支持图像和视频的细粒度分析。

模型特点

多模态实例级理解
通过显式视觉提示指令调优,增强对图像和视频中实例的细粒度理解能力。
支持 Set-of-Marks 视觉提示
可以利用 Set-of-Marks 视觉提示进行更精确的实例引用和分析。
视频帧时间戳引用
支持通过时间戳引用视频中的特定帧,实现时序感知的多模态理解。

模型能力

图像实例级描述
视频时序分析
多模态问答
细粒度视觉理解
开放式文本生成

使用案例

图像理解
图像实例描述
对图像中的特定实例进行详细描述,支持通过实例 ID 引用。
在 Inst-IT-Bench-I-OE 数据集上达到 68.6% 的准确率。
视频理解
视频时序分析
分析视频中特定时间点的内容变化,支持时间戳引用。
在 Inst-IT-Bench-V-OE 数据集上达到 49.3% 的准确率。
多模态问答
图像问答
回答关于图像内容的复杂问题,包括实例级细节。
在 GQA 数据集上达到 65.9% 的准确率。