V

Vica

由 nkkbr 开发
ViCA-7B是一款专为室内视频环境中的视觉空间推理而微调的视觉语言模型,基于LLaVA-Video-7B-Qwen2架构构建,使用ViCA-322K数据集进行训练,强调结构化空间标注和基于指令的复杂推理任务。
下载量 41
发布时间 : 4/21/2025
模型介绍
内容详情
替代品

模型简介

ViCA-7B专注于室内视频环境中的视觉空间推理,能够处理物体计数、绝对距离、物体尺寸、房间尺寸、相对距离、相对方向、路径规划和出现顺序等任务。

模型特点

视觉空间推理
专注于室内视频环境中的视觉空间推理任务,如物体计数、距离和尺寸估计等。
多模态对齐
通过轻量级投影器实现视频内容与文本提示的有效融合。
高效训练
使用DeepSpeed ZeRO-3 Offload和混合精度计算进行高效分布式训练。
固定长度视觉标记化
每个视频均匀采样为64帧,每帧编码为210个视觉标记,确保跨批次的内存使用一致和优化稳定。

模型能力

视觉问答
视频理解
空间推理
视觉空间认知
多模态处理

使用案例

室内导航助手
室内导航
帮助用户在室内环境中进行导航和路径规划。
机器人规划和空间查询
机器人路径规划
为机器人提供空间理解和路径规划能力。
智能房间布置和AR布局分析
房间布置分析
分析房间布局和物体摆放,提供优化建议。
具身AI代理的场景理解
场景理解
帮助AI代理理解复杂室内场景的空间关系。