ViCA2-stage2-onevision-ft开源多模态模型 - 免费支持视频理解与视觉空间认知

Vica2 Stage2 Onevision Ft

由 nkkbr 开发

ViCA2是一个7B参数规模的多模态视觉语言模型，专注于视频理解和视觉空间认知任务。

下载量 63

发布时间 : 4/21/2025

模型简介

ViCA2是基于LLaVA和SigLIP等先进架构构建的多模态模型，擅长处理视频文本到文本任务，具备强大的视觉空间推理能力。

多模态理解

整合视觉与语言信息，实现跨模态理解与分析

视频理解

专门针对视频内容设计的处理能力

空间推理

具备视觉空间认知和推理能力

先进架构

融合SigLIP、Hiera、SAM2等多种先进技术

视频内容理解

视觉空间推理

跨模态信息处理

视频文本生成

视频分析

视频内容描述生成

根据视频内容自动生成文本描述

视频问答系统

回答关于视频内容的复杂问题

空间认知

空间关系推理

分析视频中物体的空间关系

属性	详情
模型类型	多模态（Multimodal）、视觉语言（Vision-Language）、视频理解（Video Understanding）、视觉空间认知（Visuospatial Cognition）、空间推理（Spatial Reasoning）、视觉语言模型（VLM）、双编码器（Dual-Encoder）
训练数据	lmms-lab/LLaVA-OneVision-Data
库名称	transformers
任务类型	视频文本到文本（Video-Text-to-Text）
模型名称	ViCA2-7B-Stage2