开源LLaVA-SpaceSGG视觉问答模型 - 为图像生成结构化场景描述

首页

Llava SpaceSGG

由 wumengyangok 开发

LLaVA-SpaceSGG是基于LLaVA-v1.5-13b的视觉问答模型，专注于场景图生成任务，能够理解图像内容并生成结构化场景描述。

文本生成图像

Safetensors

英语开源协议:Apache-2.0 #视觉场景理解 #多模态问答 #场景图生成

下载量 36

发布时间 : 12/10/2024

模型简介

该模型结合视觉与语言处理能力，通过分析图像内容生成场景图，适用于需要结构化视觉理解的场景。

模型特点

多模态理解

结合视觉和语言处理能力，能够理解图像内容并生成结构化描述。

场景图生成

专注于从图像中提取对象及其关系，生成结构化场景图。

基于LLaVA扩展

在LLaVA-v1.5-13b基础上进行优化，专注于场景理解任务。

模型能力

图像内容理解

视觉问答

场景图生成

多模态推理

使用案例

计算机视觉

智能图像分析

自动分析图像内容并生成结构化场景描述

可用于图像检索、内容理解等应用

人机交互

视觉问答系统

回答关于图像内容的自然语言问题

提升人机交互的自然性和准确性

属性	详情
基础模型	liuhaotian/llava-v1.5-13b
任务类型	视觉问答

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Llava SpaceSGG

模型简介

模型特点

模型能力

使用案例

🚀 LLaVA-SpaceSGG场景图生成基线模型

🚀 快速开始

📄 许可证

📚 详细文档