SESAME开源多模态模型 - 免费使用实现精准图像定位与分割

SESAME

由 tsunghanwu 开发

SESAME是一款开源多模态模型，基于LLaVA模型在各种基于指令的图像定位（分割）数据上进行微调训练而成。

下载量 37

发布时间 : 4/25/2025

模型简介

SESAME主要用于大型多模态模型及聊天机器人的相关研究，由自回归语言模型和分割模型组成，支持图像定位和分割任务。

多模态能力

结合语言模型和视觉分割模型，支持图像与文本的多模态交互。

开源模型

基于MIT许可证开源，便于研究和二次开发。

指令驱动的图像分割

能够根据自然语言指令完成图像定位和分割任务。

图像分割

自然语言理解

多模态交互

计算机视觉研究

图像分割研究

用于研究基于自然语言指令的图像分割技术。

多模态模型开发

聊天机器人增强

为聊天机器人添加图像理解和分割能力。

属性	详情
模型类型	SESAME是一个开源的多模态模型，通过在各种基于指令的图像定位（分割）数据上微调LLaVA进行训练，是自回归语言模型与分割模型的结合。
训练数据	(FP-/R-)RefCOCO(+/g) + LLaVA 150K VQA数据