SpaceLLaVA是基于LLaVA-1.5改进的视觉语言模型,通过LoRA微调提升空间推理能力,适用于定量和定性空间推理任务。
下载量 324
发布时间 : 3/4/2024
模型简介
SpaceLLaVA是一个多模态视觉语言模型,专注于空间推理任务,如距离估计、物体位置关系判断等。它通过合成VQA数据集进行微调,增强了3D场景理解能力。
模型特点
增强的空间推理能力
通过合成VQA数据集微调,显著提升了对物体间空间关系的理解和推理能力。
多模态理解
能够同时处理视觉和语言信息,实现图像与文本的联合理解。
LoRA微调
采用低秩适应技术进行高效微调,保留了基础模型的通用能力。
模型能力
视觉问答
空间关系推理
距离估计
物体位置判断
多模态理解
使用案例
机器人导航
环境空间理解
帮助机器人理解环境中物体的空间关系
提高导航效率和安全性
增强现实
虚拟物体放置
判断虚拟物体在真实场景中的合理位置
提升AR体验的真实感
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文